論文の概要: ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
- arxiv url: http://arxiv.org/abs/2507.16815v1
- Date: Tue, 22 Jul 2025 17:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.250804
- Title: ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
- Title(参考訳): ThinkAct:Reinforced Visual Latent Planningによるビジョンランゲージ・アクション推論
- Authors: Chi-Pin Huang, Yueh-Hua Wu, Min-Hung Chen, Yu-Chiang Frank Wang, Fu-En Yang,
- Abstract要約: 視覚言語アクション(VLA)推論タスクでは、エージェントはマルチモーダル命令を解釈し、長期計画を実行し、動的環境で適応的に行動する必要がある。
既存のアプローチは通常、エンドツーエンドでVLAモデルをトレーニングし、明示的な推論なしに入力を直接アクションにマッピングする。
本稿では,高レベルの推論と低レベルのアクション実行を,強化された視覚的潜在計画を通じて橋渡しする,デュアルシステムフレームワークであるThinkActを提案する。
- 参考スコア(独自算出の注目度): 30.030923956489385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) reasoning tasks require agents to interpret multimodal instructions, perform long-horizon planning, and act adaptively in dynamic environments. Existing approaches typically train VLA models in an end-to-end fashion, directly mapping inputs to actions without explicit reasoning, which hinders their ability to plan over multiple steps or adapt to complex task variations. In this paper, we propose ThinkAct, a dual-system framework that bridges high-level reasoning with low-level action execution via reinforced visual latent planning. ThinkAct trains a multimodal LLM to generate embodied reasoning plans guided by reinforcing action-aligned visual rewards based on goal completion and trajectory consistency. These reasoning plans are compressed into a visual plan latent that conditions a downstream action model for robust action execution on target environments. Extensive experiments on embodied reasoning and robot manipulation benchmarks demonstrate that ThinkAct enables few-shot adaptation, long-horizon planning, and self-correction behaviors in complex embodied AI tasks.
- Abstract(参考訳): 視覚言語アクション(VLA)推論タスクでは、エージェントはマルチモーダル命令を解釈し、長期計画を実行し、動的環境で適応的に行動する必要がある。
既存のアプローチは通常、エンドツーエンドでVLAモデルをトレーニングし、明示的な推論なしに入力を直接アクションにマッピングする。
本稿では,高レベルの推論と低レベルのアクション実行を,強化された視覚的潜在計画を通じて橋渡しする,デュアルシステムフレームワークであるThinkActを提案する。
ThinkActはマルチモーダル LLM をトレーニングし、ゴール完了と軌道整合性に基づいたアクション整合型視覚報酬の強化によって導かれる具体的推論計画を生成する。
これらの推論計画は、ターゲット環境におけるロバストなアクション実行のために下流アクションモデルを条件とする視覚プランラテントに圧縮される。
具体的推論とロボット操作のベンチマークに関する大規模な実験は、ThinkActが複雑な具体的AIタスクにおいて、少数ショット適応、長距離計画、自己補正行動を可能にすることを実証している。
関連論文リスト
- VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-12T12:38:20Z) - HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.09735490692202]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。
実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文 参考訳(メタデータ) (2025-05-05T02:38:58Z) - Leveraging Pre-trained Large Language Models with Refined Prompting for Online Task and Motion Planning [24.797220935378057]
本稿では,事前学習型大規模言語モデル (LLM) によって支援された閉ループタスク計画・実行システム LLM-PAS を提案する。
タスク実行時の異常条件に対するLLM-PASの有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2025-04-30T12:53:53Z) - Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning [33.441215858388986]
思考の接地連鎖とルックアヘッド空間推論によるマルチモーダル行動モデルEmma-X
思考の接地連鎖とルックアヘッド空間推論を併用したマルチモーダル行動モデルEmma-Xを提案する。
Emma-Xは、特に空間的推論を必要とする現実世界のロボットタスクにおいて、競争ベースラインよりも優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-16T16:58:28Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - LEMMo-Plan: LLM-Enhanced Learning from Multi-Modal Demonstration for Planning Sequential Contact-Rich Manipulation Tasks [26.540648608911308]
本稿では,人間の実演から触覚情報や力覚情報を取り入れた文脈内学習フレームワークを提案する。
本稿では,各モダリティを総合的なタスクプランに順次統合するブートストラップ型推論パイプラインを提案する。
このタスクプランは、新しいタスク設定のプランニングのリファレンスとして使用される。
論文 参考訳(メタデータ) (2024-09-18T10:36:47Z) - Unified Task and Motion Planning using Object-centric Abstractions of
Motion Constraints [56.283944756315066]
本稿では,タスクとモーションプランニングを一つの検索に統一するTAMP手法を提案する。
我々のアプローチは、オフザシェルフAIサーチの計算効率を活用して、物理的に実現可能な計画が得られるような、オブジェクト中心の動作制約の抽象化に基づいている。
論文 参考訳(メタデータ) (2023-12-29T14:00:20Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。