論文の概要: SVLL: Staged Vision-Language Learning for Physically Grounded Embodied Task Planning
- arxiv url: http://arxiv.org/abs/2603.11563v1
- Date: Thu, 12 Mar 2026 05:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.912421
- Title: SVLL: Staged Vision-Language Learning for Physically Grounded Embodied Task Planning
- Title(参考訳): SVLL:身体的タスク計画のための段階的視覚言語学習
- Authors: Yuyuan Yang, Junkun Hong, Hongrong Wang, Honghao Cai, Xunpeng Ren, Ge Wang, Mingcong Lei, Shenhao Yan, Jiahao Yang, Chengsi Yao, Xi Li, Yiming Zhao, Yatong Han, Jinke Ren,
- Abstract要約: 我々は、堅牢で物理的に具体化された計画のための3段階統合フレームワークであるSVLL(Staged Vision-Language Learning)を提案する。
最初の2段階では、SVLLは時間的推論から空間的グラウンドを分離し、シーケンシャルなアクション履歴を導入する前に、堅牢な視覚的依存を確立する。
最終段階では、標準の直接選好最適化(DPO)の重要な制限、すなわち純粋に相対的な性質を識別し、勝利と敗戦の選好ギャップのみを最適化する。
- 参考スコア(独自算出の注目度): 21.113678610046453
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Embodied task planning demands vision-language models to generate action sequences that are both visually grounded and causally coherent over time. However, existing training paradigms face a critical trade-off: joint end-to-end training often leads to premature temporal binding, while standard reinforcement learning methods suffer from optimization instability. To bridge this gap, we present Staged Vision-Language Learning (SVLL), a unified three-stage framework for robust, physically-grounded embodied planning. In the first two stages, SVLL decouples spatial grounding from temporal reasoning, establishing robust visual dependency before introducing sequential action history. In the final stage, we identify a key limitation of standard Direct Preference Optimization (DPO), its purely relative nature -- optimizing only the preference gap between winning and losing trajectories while neglecting absolute likelihood constraints on optimal path, often yields unsafe or hallucinated behaviors. To address this, we further introduce Bias-DPO, a novel alignment objective that injects an inductive bias toward expert trajectories by explicitly maximizing likelihood on ground-truth actions while penalizing overconfident hallucinations. By anchoring the policy to the expert manifold and mitigating causal misalignment, SVLL, powered by Bias-DPO, ensures strict adherence to environmental affordances and effectively suppresses physically impossible shortcuts. Finally, extensive experiments on the interactive AI2-THOR benchmark and real-world robotic deployments demonstrate that SVLL outperforms both state-of-the-art open-source (e.g., Qwen2.5-VL-7B) and closed-source models (e.g., GPT-4o, Gemini-2.0-flash) in task success rate, while significantly reducing physical constraint violations.
- Abstract(参考訳): Embodied Task Planningは視覚言語モデルに対して、視覚的に接地し、時間とともに因果的に一貫性のあるアクションシーケンスを生成するように要求する。
しかし、既存のトレーニングパラダイムは重要なトレードオフに直面している: 共同エンドツーエンドのトレーニングは、しばしば早期の時間的拘束につながるが、標準的な強化学習手法は、最適化の不安定さに悩まされる。
このギャップを埋めるために、我々は、堅牢で物理的に具体化された計画のための統合された3段階のフレームワークであるSVLL(Staged Vision-Language Learning)を紹介した。
最初の2段階では、SVLLは時間的推論から空間的グラウンドを分離し、シーケンシャルなアクション履歴を導入する前に、堅牢な視覚的依存を確立する。
最終段階では、標準の直接選好最適化(DPO)の重要な制限、すなわち純粋に相対的な性質、すなわち、最適経路における絶対的絶対的制約を無視しながら、勝利と損失の軌道間の選好ギャップのみを最適化し、しばしば安全でない、あるいは幻覚的な振る舞いをもたらす。
そこで本研究では,本研究の目的であるBias-DPOを導入する。これは,過信の幻覚を具現化しつつ,地道行動の可能性を明示的に最大化し,専門家の軌道に誘導バイアスを注入する新たなアライメント対象である。
専門家の多様体にポリシーを固定し、因果不整合を緩和することにより、Bias-DPOを動力とするSVLLは、環境条件の厳格な遵守を確保し、物理的に不可能なショートカットを効果的に抑制する。
最後に、対話型AI2-THORベンチマークと実世界のロボット展開に関する広範な実験により、SVLLは最先端のオープンソース(例えば、Qwen2.5-VL-7B)とクローズドソースモデル(例えば、GPT-4o、Gemini-2.0-flash)の両方をタスク成功率で上回り、物理的制約違反を著しく低減することを示した。
関連論文リスト
- Dual-End Consistency Model [41.982957134224904]
スロー反復サンプリングは拡散モデルとフローベース生成モデルの実践的展開において大きなボトルネックとなる。
本稿では,安定かつ効果的なトレーニングを実現するために,バイタルサブ軌道クラスタを選択するDual-End Consistency Model (DE-CM)を提案する。
提案手法は,ImageNet 256x256データセットの1ステップ生成において,最先端のFIDスコア1.70を達成し,既存のCMベースのワンステップアプローチよりも優れていた。
論文 参考訳(メタデータ) (2026-02-11T11:51:01Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - SynCast: Synergizing Contradictions in Precipitation Nowcasting via Diffusion Sequential Preference Optimization [62.958457694151384]
本研究では,大規模な言語モデルにおける人的フィードバックからの強化学習の成功を動機として,降水量の最適化を初めて導入する。
第一段階では、フレームワークはFARを減らすことに焦点を当て、誤報を効果的に抑えるためにモデルを訓練する。
論文 参考訳(メタデータ) (2025-10-22T16:11:22Z) - IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction [51.130510883952546]
Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)を活用して、ロボット制御との認識を両立させる。
カリキュラム学習パラダイムと効率的な推論機構を備えたVLAフレームワークである textbfIntentionVLA を提案する。
提案手法はまず,意図推論,空間的接地,コンパクトな具体的推論を組み合わせ,慎重に設計した推論データを活用する。
論文 参考訳(メタデータ) (2025-10-09T04:49:46Z) - TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning [63.73629127832652]
本稿では,TDに基づく潜在予測表現を教師なしRLに活用するTD-JEPAを紹介する。
TD-JEPAは、明示的な状態とタスクエンコーダ、ポリシー条件付きマルチステップ予測器、パラメータ化されたポリシーのセットを潜時空間で直接訓練する。
実証的には、TD-JEPAは13のデータセットにわたる移動、ナビゲーション、操作のタスクにおいて、最先端のベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2025-10-01T10:21:18Z) - STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation [18.55356623615343]
オフ政治評価(OPE)は、行動ポリシーから収集されたオフラインデータを用いて、ターゲットポリシーのパフォーマンスを推定する。
既存のOPE法は高次元の長距離問題には有効ではない。
長軸OPEのデノナイズ拡散を利用したモデルベース生成フレームワークSTITCH-OPEを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:39:26Z) - Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。
Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。