Fugu-MT 論文翻訳(概要): World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

論文の概要: World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

arxiv url: http://arxiv.org/abs/2503.10480v1
Date: Thu, 13 Mar 2025 15:49:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.746827
Title: World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning
Title（参考訳）: World Modelingがより良いプランナーを作る: 身体的タスクプランニングのためのデュアル優先度最適化
Authors: Siyin Wang, Zhaoye Fei, Qinyuan Cheng, Shiduo Zhang, Panpan Cai, Jinlan Fu, Xipeng Qiu,
Abstract要約: そこで本稿では,嗜好学習による状態予測と行動選択を協調的に最適化する新たな学習フレームワークを提案する。人間のアノテーションを使わずに軌道や段階的な選好データを自動的に収集するために,試行錯誤による広範囲な探索のための木探索機構を導入する。提案手法は,Qwen2-VL (7B), LLaVA-1.6 (7B), LLaMA-3.2 (11B) に適用した場合, 既存の手法と GPT-4o を著しく上回っている。
参考スコア（独自算出の注目度）: 60.100794160682646
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in large vision-language models (LVLMs) have shown promise for embodied task planning, yet they struggle with fundamental challenges like dependency constraints and efficiency. Existing approaches either solely optimize action selection or leverage world models during inference, overlooking the benefits of learning to model the world as a way to enhance planning capabilities. We propose Dual Preference Optimization (D$^2$PO), a new learning framework that jointly optimizes state prediction and action selection through preference learning, enabling LVLMs to understand environment dynamics for better planning. To automatically collect trajectories and stepwise preference data without human annotation, we introduce a tree search mechanism for extensive exploration via trial-and-error. Extensive experiments on VoTa-Bench demonstrate that our D$^2$PO-based method significantly outperforms existing methods and GPT-4o when applied to Qwen2-VL (7B), LLaVA-1.6 (7B), and LLaMA-3.2 (11B), achieving superior task success rates with more efficient execution paths.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)の最近の進歩は,タスク計画の具体化を約束しているが,依存性の制約や効率性といった根本的な課題に悩まされている。既存のアプローチは、単に行動選択を最適化するか、推論中に世界モデルを活用するかのいずれかであり、計画能力を高める方法として世界をモデル化する学習の利点を見越している。 D$^2$PO(Dual Preference Optimization, D$^2$PO)は、LVLMが環境のダイナミクスを理解し、より優れた計画を立てることができるように、状態予測と行動選択を協調的に最適化する新しい学習フレームワークである。人間のアノテーションを使わずに軌道や段階的な選好データを自動的に収集するために,試行錯誤による広範囲な探索のための木探索機構を導入する。我々のD$^2$PO法は,Qwen2-VL (7B), LLaVA-1.6 (7B), LLaMA-3.2 (11B)に適用された場合, 既存の手法とGPT-4oを著しく上回り, より効率的な実行経路で優れたタスク成功率が得られることを示した。

関連論文リスト

Adaptive Sample Scheduling for Direct Preference Optimization [37.75208455935495]
DPOのためのサンプルスケジューリングという,新しい問題を紹介します。モデルの進化状態に基づいてトレーニングサンプルを動的かつ適応的にスケジュールすることを目的としている。トレーニングバッチ毎にサンプルを適応的に選択する,効率的かつ効率的なアルゴリズムであるSamSを提案する。
論文参考訳（メタデータ） (2025-06-08T10:26:09Z)
Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文参考訳（メタデータ） (2025-05-28T07:21:37Z)
A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文参考訳（メタデータ） (2025-03-12T08:45:15Z)
Structured Preference Optimization for Vision-Language Long-Horizon Task Planning [60.26885165189447]
視覚言語タスクプランニングの既存の方法は、短期水平タスクでは優れているが、動的環境における複雑な長期水平計画では不足することが多い。これらの課題は、ロングホライゾンタスクのための高品質な推論プロセスを生成するために、効果的にモデルを訓練することの難しさから生じる。本研究では,長期タスク計画における推論と行動選択の促進を目的とした構造的選好最適化(SPO)を提案する。
論文参考訳（メタデータ） (2025-02-28T05:47:34Z)
Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [31.509112804985133]
強化学習(Reinforcement Learning, RL)は、試行錯誤と最適制御を通じてポリシーを学習し、学習または既知の力学モデルを用いてアクションを計画する。異なる品質のデータセットを用いて、異なるRLおよび制御に基づく手法の性能を系統的に解析する。モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。
論文参考訳（メタデータ） (2025-02-20T18:39:41Z)
On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文参考訳（メタデータ） (2024-09-30T03:58:43Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
Parameter-Efficient Active Learning for Foundational models [7.799711162530711]
基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文参考訳（メタデータ） (2024-06-13T16:30:32Z)
EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文参考訳（メタデータ） (2023-05-24T11:04:30Z)
Automated Few-Shot Time Series Forecasting based on Bi-level Programming [5.760976250387322]
本稿では,バイレベルプログラミングの観点から,数発の学習パイプラインの最適設計を自動化するBiLO-Auto-TSF/MLフレームワークを開発する。提案したBiLO-Auto-TSF/MLフレームワークの有効性を総合的に検証した。
論文参考訳（メタデータ） (2022-03-07T12:15:14Z)
Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文参考訳（メタデータ） (2020-08-02T02:56:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。