論文の概要: OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies
- arxiv url: http://arxiv.org/abs/2603.10052v1
- Date: Mon, 09 Mar 2026 17:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.595188
- Title: OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies
- Title(参考訳): OmniGuide:ジェネラリストロボットポリシーの強化のためのユニバーサルガイダンスフィールド
- Authors: Yunzhou Song, Long Le, Yong-Hyun Park, Jie Wang, Junyao Shi, Lingjie Liu, Jiatao Gu, Eric Eaton, Dinesh Jayaraman, Kostas Daniilidis,
- Abstract要約: 視覚言語アクション(VLA)モデルは、比較的単純なタスクの多岐にわたるジェネラリストポリシーとして、非常に有望である。
本稿では,任意の指導源を活用することで,このようなタスクにおけるVLA性能を向上させるフレキシブルなフレームワークを提案する。
本研究では,3次元空間内に存在するタスク特異的アトラクタとレペラを用いて,自然に何種類のガイダンスを微分可能エネルギー関数として表現できるかを示す。
- 参考スコア(独自算出の注目度): 75.40720507604647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action(VLA) models have shown great promise as generalist policies for a large range of relatively simple tasks. However, they demonstrate limited performance on more complex tasks, such as those requiring complex spatial or semantic understanding, manipulation in clutter, or precise manipulation. We propose OMNIGUIDE, a flexible framework that improves VLA performance on such tasks by leveraging arbitrary sources of guidance, such as 3D foundation models, semantic-reasoning VLMs, and human pose models. We show how many kinds of guidance can be naturally expressed as differentiable energy functions with task-specific attractors and repellers located in 3D space, that influence the sampling of VLA actions. In this way, OMNIGUIDE enables guidance sources with complementary task-relevant strengths to improve a VLA model's performance on challenging tasks. Extensive experiments in both simulation and real-world environments, across diverse sources of guidance, demonstrate that OMNIGUIDE enhances the performance of state-of-the-art generalist policies (e.g., $π_{0.5}$, GR00T N1.6) significantly across success and safety rates. Critically, our unified framework matches or surpasses the performance of prior methods designed to incorporate specific sources of guidance into VLA policies. Project Page: $\href{https://omniguide.github.io/}{this \; url}$
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、比較的単純なタスクの多岐にわたるジェネラリストポリシーとして、非常に有望である。
しかし、複雑な空間的または意味的な理解を必要とするタスク、乱雑な操作、精密な操作など、より複雑なタスクにおいて限られたパフォーマンスを示す。
OMNIGUIDEは,3次元基礎モデル,セマンティック推論VLM,ヒューマンポーズモデルなどの任意の誘導源を活用することで,タスク上でのVLA性能を向上させるフレキシブルなフレームワークである。
本稿では, VLA アクションのサンプリングに影響を及ぼす3次元空間に, タスク特異的なアトラクタとレペラを配置した, 微分可能エネルギー関数として, どのような種類のガイダンスを自然に表現できるかを示す。
このようにして、OMNIGUIDEは、相補的なタスク関連強度を持つガイダンスソースを可能にし、課題に対するVLAモデルの性能を改善する。
OMNIGUIDEは、シミュレーションと実世界の環境の両方において、様々なガイダンスの源を越えて、成功率と安全性の面で、最先端のジェネラリスト政策(例えば、$π_{0.5}$, GR00T N1.6)のパフォーマンスを著しく向上させることを示した。
批判的に、当社の統一フレームワークは、特定のガイダンス源をVLAポリシーに組み込むように設計された従来の手法の性能と一致しているか、上回っている。
プロジェクトページ: $\href{https://omniguide.github.io/}{this \; url}$
関連論文リスト
- GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning [20.646039344274556]
GeneralVLAは階層型視覚言語アクション(VLA)モデルであり、基礎モデルの一般化をより効果的に活用することができる。
GeneralVLAは14タスクの軌道生成に成功し、VoxPoserのような最先端の手法を著しく上回った。
論文 参考訳(メタデータ) (2026-02-04T08:30:27Z) - SAGA: Open-World Mobile Manipulation via Structured Affordance Grounding [17.694566254714676]
SAGAは視覚運動制御のための汎用的で適応的なフレームワークである。
様々な環境、タスクの目的、ユーザ仕様をまたいで一般化することができる。
言語命令、選択されたポイント、サンプルデモなど、さまざまな形式で指定されたタスクを解決できる。
論文 参考訳(メタデータ) (2025-12-14T21:13:56Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends [11.678954304546988]
視覚言語アクション(VLA)モデル拡張視覚言語モデル(VLM)
本稿では,人間の運動学習のレンズによるVLAモデルの訓練戦略についてレビューする。
論文 参考訳(メタデータ) (2025-06-26T03:06:57Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization [35.382501238148734]
AGNOSTOSは、操作においてクロスタスクゼロショットの一般化を厳格に評価するために設計された新しいシミュレーションベンチマークである。
X-ICMは、コンテキスト内デモで大きな言語モデルを条件付け、目に見えないタスクに対するアクションシーケンスを予測する手法である。
我々はAGNOSTOSとX-ICMが汎用的なロボット操作を促進する貴重なツールになると信じている。
論文 参考訳(メタデータ) (2025-05-21T15:35:57Z) - VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。