論文の概要: See Less, Specify More: Visual Evidence Budgets for Generalizable VLAs
- arxiv url: http://arxiv.org/abs/2606.02735v2
- Date: Mon, 08 Jun 2026 17:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 18:11:02.406795
- Title: See Less, Specify More: Visual Evidence Budgets for Generalizable VLAs
- Title(参考訳): より小さく、より明確に - 一般化可能なVLAのためのビジュアルエビデンス予算
- Authors: Yueh-Hua Wu, Tatsuya Matsushima, Kei Ota,
- Abstract要約: 一般化は、ヴィジュアル-アクション(VLA)モデルにおける中心的なボトルネックである。
本稿では,よりクリーンなインタフェース下でエグゼキュータをトレーニングすることで,VLAの一般化を改善するためのフレームワークであるS2を提案する。
- 参考スコア(独自算出の注目度): 7.904405860789613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization remains a central bottleneck for vision-language-action (VLA) models: under distractors, appearance shifts, and semantically similar tasks, the policy must often infer local execution details from coarse instructions while also deciding which parts of the image matter for control. We present S2 (See Less, Specify More), a framework for improving VLA generalization by training the executor under a cleaner interface. Specify More preserves the original instruction as a stable high-level goal while relabeling each trajectory into refined trajectory- and subtask-level language that disambiguates the current execution mode. Unlike native attention, See Less imposes an explicit visual evidence budget, training the executor to act from task-sufficient evidence rather than unconstrained visual context, without any region or mask annotation. This interface lets the executor follow detailed guidance without relying on distracting visual patches or resolving avoidable ambiguity on its own, and it remains compatible with off-the-shelf VLM planners through in-context learning. Across our main evaluation settings, S2 improves overall generalization metrics by changing the executor's learning problem: coarse instructions induce avoidable supervision aliasing, goal-preserving local guidance outperforms instruction replacement in our main ablations, and explicit evidence budgeting reduces dependence on broad visual context beyond efficiency considerations. Across eight real-robot tasks on TX-G2 (an AgiBot G2-compatible variant) and HSR, S2 raises mean subtask success from 54.2% to 79.0% over pi0.5. Together, these results suggest that VLA generalization improves when the executor is trained to act from informative local guidance and task-sufficient visual evidence, rather than recovering both from weak supervision.
- Abstract(参考訳): イントラクタ、外観シフト、意味論的に類似したタスクの下で、このポリシーはしばしば粗い指示から局所的な実行の詳細を推論し、画像のどの部分が制御されるかを決定する必要がある。
本稿では,よりクリーンなインタフェース下でエグゼキュータをトレーニングすることで,VLAの一般化を改善するためのフレームワークであるS2(See Less, Specify More)を提案する。
Specify Moreは、元の命令を安定したハイレベルな目標として保存し、各トラジェクトリを現在の実行モードを曖昧にする洗練されたトラジェクトリおよびサブタスクレベル言語にレバーブする。
先住民の注意とは違って、See Lessは明確な視覚的エビデンス予算を課し、領域やマスクのアノテーションを使わずに、実行者に対して、制約のない視覚的文脈ではなく、タスクに十分なエビデンスから行動するよう訓練する。
このインターフェースにより、実行者は視覚的なパッチを邪魔したり、回避可能な曖昧さを自分で解決したりすることなく、詳細なガイダンスに従うことができ、コンテキスト内学習を通じて、既製のVLMプランナと互換性が保たれる。
粗い指示は回避可能な監視エイリアスを誘導し、目標を保ったローカルガイダンスは、我々の主目的における命令置換よりも優れ、明確な証拠予算は、効率の考慮を超えた広い視覚的コンテキストへの依存を減少させる。
TX-G2(AgiBot G2互換版)とHSRの8つの実ロボットタスクの中で、S2は平均サブタスク成功率を54.2%から79.0%に引き上げている。
これらの結果から,VLAの一般化は,管理力の弱さから双方を回復させるのではなく,情報的局所的指導やタスクに十分対応した視覚的証拠から行動するように訓練された時に改善されると考えられる。
関連論文リスト
- Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring [35.34120853605602]
textbf-and-Seekは、粗い教師付き学習問題としてVLA障害検出を定式化するフレームワークである。
我々は、LIBERO、VLABench、および3つの代表的なVLAポリシーをまたいだ現実世界のロボットプラットフォームについて、Hie-and-Seekの評価を行った。
論文 参考訳(メタデータ) (2026-05-29T04:40:12Z) - VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies [58.65913948991329]
正確な低レイテンシVLAポリシーのためのビジュアル中間推論フレームワークであるVISUALTHINK-VLAを提案する。
私たちのブートストラップ哲学は、効果的な視覚的思考でアクションを導くことです。
これは、デコードオーバーヘッドを回避しながら空間的精度を保った、コンパクトなビジュアル・エビデンスインターフェースを通じてアクション予測をブートストラップする。
論文 参考訳(メタデータ) (2026-05-28T14:36:53Z) - QuoVLA: Quotient Space for Vision-Language-Action Models [51.02329790939691]
VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を連続的な行動にマッピングすることで、トレーニング済みのVLM潜伏者をロボット制御に適応させることが一般的である。
VLA の textitQuotient Theory は、事前訓練された VLM 潜伏剤は、アクションに十分ではないがアクションに十分であることを示している。
提案するQuoVLAは,事前学習されたVLMラテントを動作十分表現に圧縮する,VLAの商空間フレームワークである。
論文 参考訳(メタデータ) (2026-05-24T06:28:53Z) - What to Ignore, What to React: Visually Robust RL Fine-Tuning of VLA Models [35.49750676677204]
強化学習(RL)の微調整は、ロボット操作におけるビジョン・ランゲージ・アクション(VLA)モデルの可能性を示している。
重要な課題は、標準的なタスク報酬がタスクの成功を監督するが、視覚的な変化がタスク非関連であるか、操作に必要な振る舞いを変更するか、限定的なガイダンスを提供することである。
PAIR-VLAは、PPO最適化中にペアの視覚的変形に対して2つの補助的な目的を加えることで、この問題に対処する。
論文 参考訳(メタデータ) (2026-05-13T07:15:37Z) - Global Context or Local Detail? Adaptive Visual Grounding for Hallucination Mitigation [31.028607494171336]
VLM(Vision-Language Models)は、物体の幻覚によってしばしば弱められる。
トレーニング不要な推論フレームワークであるPND(Positive-and-Negative Decoding)を紹介する。
PNDは、視覚的忠実性を強制するために、デコードプロセスに直接介入する。
論文 参考訳(メタデータ) (2026-04-27T12:23:00Z) - LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs [66.81402538540458]
本稿では,局所的セマンティックアタックの新しい手法であるV-Attackを提案する。
V-Attackは、最先端の手法よりも平均して36%の攻撃成功率を改善する。
論文 参考訳(メタデータ) (2025-11-25T11:51:17Z) - SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation [65.6201974979119]
本稿では,効率的なロボットマニピュレーションのためのセマンティックスペーシフィケーション・エンハンスメントを実現する新しいVLAフレームワークSemanticVLAを提案する。
SemanticVLAはOpenVLA on LIBEROベンチマークを21.1%上回り、トレーニングコストと推論遅延を3.0倍と2.7倍に削減した。
論文 参考訳(メタデータ) (2025-11-13T17:24:37Z) - Efficient Training of Generalizable Visuomotor Policies via Control-Aware Augmentation [45.62430292728745]
既存のデータ拡張手法は、画像内のタスク関連情報を妨害し、性能を低下させる可能性がある。
本稿では,既存の手法を改良した汎用型ビズモータポリシーのための効率的なトレーニングフレームワークを提案する。
我々は,DMControl Generalization Benchmark,強化されたロボットマニピュレーション・ディトラクション・ベンチマーク,長期ドローダ・オープンタスクの3つの領域で実験を行った。
論文 参考訳(メタデータ) (2024-01-17T15:05:00Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。