論文の概要: Structured Preference Optimization for Vision-Language Long-Horizon Task Planning
- arxiv url: http://arxiv.org/abs/2502.20742v2
- Date: Thu, 06 Mar 2025 12:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 12:14:47.666589
- Title: Structured Preference Optimization for Vision-Language Long-Horizon Task Planning
- Title(参考訳): 視覚領域長軸タスク計画のための構造的選好最適化
- Authors: Xiwen Liang, Min Lin, Weiqi Ruan, Rongtao Xu, Yuecheng Liu, Jiaqi Chen, Bingqian Lin, Yuzheng Zhuang, Xiaodan Liang,
- Abstract要約: 視覚言語タスクプランニングの既存の方法は、短期水平タスクでは優れているが、動的環境における複雑な長期水平計画では不足することが多い。
これらの課題は、ロングホライゾンタスクのための高品質な推論プロセスを生成するために、効果的にモデルを訓練することの難しさから生じる。
本研究では,長期タスク計画における推論と行動選択の促進を目的とした構造的選好最適化(SPO)を提案する。
- 参考スコア(独自算出の注目度): 60.26885165189447
- License:
- Abstract: Existing methods for vision-language task planning excel in short-horizon tasks but often fall short in complex, long-horizon planning within dynamic environments. These challenges primarily arise from the difficulty of effectively training models to produce high-quality reasoning processes for long-horizon tasks. To address this, we propose Structured Preference Optimization (SPO), which aims to enhance reasoning and action selection in long-horizon task planning through structured preference evaluation and optimized training strategies. Specifically, SPO introduces: 1) Preference-Based Scoring and Optimization, which systematically evaluates reasoning chains based on task relevance, visual grounding, and historical consistency; and 2) Curriculum-Guided Training, where the model progressively adapts from simple to complex tasks, improving its generalization ability in long-horizon scenarios and enhancing reasoning robustness. To advance research in vision-language long-horizon task planning, we introduce ExtendaBench, a comprehensive benchmark covering 1,509 tasks across VirtualHome and Habitat 2.0, categorized into ultra-short, short, medium, and long tasks. Experimental results demonstrate that SPO significantly improves reasoning quality and final decision accuracy, outperforming prior methods on long-horizon tasks and underscoring the effectiveness of preference-driven optimization in vision-language task planning. Specifically, SPO achieves a +5.98% GCR and +4.68% SR improvement in VirtualHome and a +3.30% GCR and +2.11% SR improvement in Habitat over the best-performing baselines.
- Abstract(参考訳): 視覚言語タスクプランニングの既存の方法は、短期水平タスクでは優れているが、動的環境における複雑な長期水平計画では不足することが多い。
これらの課題は主に、長期的タスクのための高品質な推論プロセスを生成するために、モデルを効果的に訓練することの難しさから生じる。
これを解決するために,構造化された選好評価と最適化されたトレーニング戦略を通じて,長期タスク計画における推論と行動選択を強化することを目的とした構造化選好最適化(SPO)を提案する。
具体的には、SPOが紹介する。
1)課題関連性、視覚的接地、歴史的整合性に基づく推論連鎖を体系的に評価する優先に基づくスコア付けと最適化
2)カリキュラムガイドトレーニングでは,モデルが単純タスクから複雑タスクへと段階的に適応し,長期シナリオにおける一般化能力を向上し,推論の堅牢性を高める。
視覚言語による長期タスク計画の研究を進めるために,VirtualHomeとHabitat 2.0にまたがる1,509のタスクを,超短短,短,中,長のタスクに分類した包括的なベンチマークであるExtensionaBenchを紹介した。
実験結果から,SPOは推論品質と最終決定精度を著しく向上し,長期タスクにおける先行手法よりも優れ,視覚言語タスク計画における嗜好駆動最適化の有効性を実証した。
具体的には、SPOはVirtualHomeで+5.98%のGCRと+4.68%のSR改善、Habitatで+3.30%のGCRと+2.11%のSR改善を実現している。
関連論文リスト
- DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents [2.1438108757511958]
我々の重要な貢献は、従来の距離に基づくアプローチに代わる離散階層的計画法(DHP)である。
提案手法の理論的基礎を提供し,その効果を広範な経験的評価を通じて実証する。
提案手法は,25室環境における長期視覚計画タスクにおいて,成功率と平均エピソード長において,従来のベンチマークよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-02-04T03:05:55Z) - Generalization of Compositional Tasks with Logical Specification via Implicit Planning [14.46490764849977]
本稿では,タスク一般化の効率性と最適性を向上する階層的RLフレームワークを提案する。
高いレベルでは、作曲タスクの一般化に特化して設計された暗黙のプランナーを示す。
潜時遷移モデルを学び、グラフニューラルネットワーク(GNN)を用いて潜時空間で計画を実行する。
論文 参考訳(メタデータ) (2024-10-13T00:57:10Z) - Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-30T17:57:28Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - A Survey of Optimization-based Task and Motion Planning: From Classical To Learning Approaches [15.136760934936381]
タスク・アンド・モーション・プランニング(TAMP)は、高レベルなタスク計画と低レベルなモーション・プランニングを統合し、ロボットに自律性を持たせ、長期にわたる動的タスクを推論する。
この調査では、最適化に基づくTAMPの包括的なレビュー、(i)計画ドメイン表現、(ii)AI計画と軌道最適化(TO)を含むコンポーネントの個別ソリューション戦略、(iii)論理ベースのタスク計画とモデルベースのTOの動的相互作用について紹介する。
論文 参考訳(メタデータ) (2024-04-03T15:38:36Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。