論文の概要: LangForce: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries
- arxiv url: http://arxiv.org/abs/2601.15197v3
- Date: Sat, 24 Jan 2026 07:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 13:23:48.801557
- Title: LangForce: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries
- Title(参考訳): LangForce: 潜在アクションクエリによる視覚言語行動モデルのベイジアン分解
- Authors: Shijie Lian, Bin Yu, Xiaopeng Lin, Laurence T. Yang, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Cong Huang, Kai Chen,
- Abstract要約: LangForceは、ベイズ分解による命令を強制する新しいフレームワークである。
我々は,新しいデータを必要としないLangForceの一般化を著しく改善することを示す。
- 参考スコア(独自算出の注目度): 30.732526921367835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have shown promise in robot manipulation but often struggle to generalize to new instructions or complex multi-task scenarios. We identify a critical pathology in current training paradigms where goal-driven data collection creates a dataset bias. In such datasets, language instructions are highly predictable from visual observations alone, causing the conditional mutual information between instructions and actions to vanish, a phenomenon we term Information Collapse. Consequently, models degenerate into vision-only policies that ignore language constraints and fail in out-of-distribution (OOD) settings. To address this, we propose LangForce, a novel framework that enforces instruction following via Bayesian decomposition. By introducing learnable Latent Action Queries, we construct a dual-branch architecture to estimate both a vision-only prior $p(a \mid v)$ and a language-conditioned posterior $π(a \mid v, \ell)$. We then optimize the policy to maximize the conditional Pointwise Mutual Information (PMI) between actions and instructions. This objective effectively penalizes the vision shortcut and rewards actions that explicitly explain the language command. Without requiring new data, LangForce significantly improves generalization. Extensive experiments across on SimplerEnv and RoboCasa demonstrate substantial gains, including an 11.3% improvement on the challenging OOD SimplerEnv benchmark, validating the ability of our approach to robustly ground language in action.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルはロボット操作において有望であるが、新しい命令や複雑なマルチタスクシナリオへの一般化に苦慮することが多い。
目標駆動型データ収集がデータセットバイアスを生み出す現在のトレーニングパラダイムにおいて、重要な病理を識別する。
このようなデータセットでは、言語命令は視覚的にのみ予測可能であり、命令と行動の間の条件付き相互情報を消滅させる現象であるインフォメーション・崩壊(Information Collapse)と呼ばれる現象である。
その結果、モデルは言語制約を無視し、アウト・オブ・ディストリビューション(OOD)設定で失敗する視覚のみのポリシーに縮退する。
これを解決するために,ベイズ分解による指示に従う新しいフレームワークであるLangForceを提案する。
学習可能なLatent Action Queriesを導入することで、視覚のみの事前$p(a \mid v)$と言語条件の後方$π(a \mid v, \ell)$の両方を推定するデュアルブランチアーキテクチャを構築する。
次に、アクションと命令間の条件付きポイントワイド相互情報(PMI)を最大化するためにポリシーを最適化する。
この目的は視覚ショートカットを効果的に罰し、言語コマンドを明確に説明するアクションを報いる。
新しいデータを必要としないため、LangForceは一般化を大幅に改善する。
SimplerEnvとRoboCasaの大規模な実験では、挑戦的なOOD SimplerEnvベンチマークが11.3%改善され、我々のアプローチが動作中の言語を堅牢に基盤化する能力が検証された。
関連論文リスト
- Point What You Mean: Visually Grounded Instruction Policy [42.52502990975079]
Point-VLAは、言語命令を明示的な視覚的手がかりで拡張し、参照の曖昧さを解決するためのプラグアンドプレイポリシーである。
我々は,多種多様な実世界の参照タスクにおいてポイントVLAを評価し,テキストのみの命令VLAよりも一貫して強靭なパフォーマンスを観察する。
論文 参考訳(メタデータ) (2025-12-22T00:44:19Z) - Seeing to Act, Prompting to Specify: A Bayesian Factorization of Vision Language Action Policy [59.44168425139687]
BayesVLA(ベイズVLA)は、前もってポリシーを視覚的アクションに分解し、ルック・トゥ・アクティベーションと言語条件付き可能性をサポートし、即時特定を可能にするベイズ因子化である。
実験は、既存の方法と比較して、目に見えない命令、オブジェクト、環境に対して優れた一般化を示す。
論文 参考訳(メタデータ) (2025-12-12T01:59:23Z) - Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification [17.948161564138033]
Reasoning Vision Language Action (VLA)モデルは、低レベルアクションの前にステップバイステップのテキストプランを生成することで、ロボットによる命令追従を改善する。
しかし、正しいテキストプランであっても、生成したアクションは計画の意図した結果、特にアウト・オブ・ディストリビューションのシナリオを見逃す可能性がある。
我々は、この現象をCoT忠実性の欠如として定式化し、推論・アクションアライメントのためのトレーニング不要な実行時ポリシーステアリング手法を導入する。
論文 参考訳(メタデータ) (2025-10-18T00:38:45Z) - FOSSIL: Harnessing Feedback on Suboptimal Samples for Data-Efficient Generalisation with Imitation Learning for Embodied Vision-and-Language Tasks [45.65159253753118]
この研究は、模倣学習で訓練されたエージェントが最適と準最適の両方から堅牢な表現を学習する方法を探求する。
入力シーケンスの一部として言語フィードバックの埋め込みをTransformerベースのポリシーに組み込む。
独自のBabyAI-XGen環境における視覚・言語タスクの具体化について,本手法を検証した。
論文 参考訳(メタデータ) (2025-10-13T11:55:21Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [63.54377402784965]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。
書き換え機構から, シミュレータフリー, 省力両面において, 新たな観察・指導ペアを得ることができた。
離散環境(R2R,REVERIE,R4Rデータセット)と連続環境(R2R-CEデータセット)の両方における実験は,本手法の優れた性能と優れた一般化能力を示している。
論文 参考訳(メタデータ) (2025-03-23T13:18:17Z) - Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter [59.69563889773648]
本研究では,ロボットが対象物を開き散らかし,特定の場所に移動させるという,言語条件のピック・アンド・プレイス作業について検討する。
いくつかのアプローチは、ビジョンファウンデーションモデルから機能を使ってエンドツーエンドのポリシーを学び、大きなデータセットを必要とする。
本研究では,無条件動作先行と3次元視覚言語先行とを1つの注意層から学習することで協調する行動先行アライメント手法を提案する。
論文 参考訳(メタデータ) (2025-03-12T14:20:33Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。