論文の概要: Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach
- arxiv url: http://arxiv.org/abs/2505.16422v1
- Date: Thu, 22 May 2025 09:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.180533
- Title: Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach
- Title(参考訳): スマートデバイス制御のアンロック:世界モデル駆動型コード実行アプローチによる予測計画
- Authors: Xiaoran Yin, Xu Luo, Hao Wu, Lianli Gao, Jingkuan Song,
- Abstract要約: 本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。
本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
- 参考スコア(独自算出の注目度): 83.21177515180564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automatic control of mobile devices is essential for efficiently performing complex tasks that involve multiple sequential steps. However, these tasks pose significant challenges due to the limited environmental information available at each step, primarily through visual observations. As a result, current approaches, which typically rely on reactive policies, focus solely on immediate observations and often lead to suboptimal decision-making. To address this problem, we propose \textbf{Foresighted Planning with World Model-Driven Code Execution (FPWC)},a framework that prioritizes natural language understanding and structured reasoning to enhance the agent's global understanding of the environment by developing a task-oriented, refinable \emph{world model} at the outset of the task. Foresighted actions are subsequently generated through iterative planning within this world model, executed in the form of executable code. Extensive experiments conducted in simulated environments and on real mobile devices demonstrate that our method outperforms previous approaches, particularly achieving a 44.4\% relative improvement in task success rate compared to the state-of-the-art in the simulated environment. Code and demo are provided in the supplementary material.
- Abstract(参考訳): モバイルデバイスの自動制御は、複数のシーケンシャルステップを含む複雑なタスクを効率的に実行するために不可欠である。
しかしながら、これらのタスクは、主に視覚的な観察を通して、各ステップで利用可能な限られた環境情報のために、重大な課題を引き起こす。
その結果、現在のアプローチは、一般的にはリアクティブなポリシーに依存し、即時的な観察のみに集中し、しばしば最適以下の意思決定につながる。
この問題に対処するために,自然言語の理解と構造化推論を優先し,タスクの開始時にタスク指向で精錬可能な \emph{world model} を開発することにより,エージェントの環境に対するグローバルな理解を高めるフレームワークである \textbf{Foresighted Planning with World Model-Driven Code Execution (FPWC)} を提案する。
その後、監視されたアクションは、実行可能コードの形式で実行されるこの世界モデル内で反復的な計画によって生成される。
シミュレーション環境や実機上で行った大規模な実験により,本手法は従来の手法よりも優れており,特にシミュレーション環境における現状と比較して,タスク成功率の44.4倍の相対的な改善が達成されている。
コードとデモは補足資料で提供される。
関連論文リスト
- MORE: Mobile Manipulation Rearrangement Through Grounded Language Reasoning [13.535721260188694]
MOREはゼロショットモバイル操作計画タスクを解決するための言語モデルの能力を高めるための新しいアプローチである。
BEHAVIOR-1Kベンチマークから81の多様な再配置タスクに対してMOREを評価し,ベンチマークのかなりの割合をうまく解決するための最初のアプローチとなる。
論文 参考訳(メタデータ) (2025-05-05T21:26:03Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。
本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。
移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文 参考訳(メタデータ) (2024-08-11T14:57:57Z) - LLM-SAP: Large Language Models Situational Awareness Based Planning [0.0]
我々は、潜在的なリスクを予測し、積極的に軽減する方法論を開発するために、マルチエージェント推論フレームワークを使用します。
提案手法は,人間中心のインタラクションの複雑さを計画プロセスに組み込むことによって,従来のオートマトン理論から分岐する。
論文 参考訳(メタデータ) (2023-12-26T17:19:09Z) - Novelty Accommodating Multi-Agent Planning in High Fidelity Simulated Open World [7.821603097781892]
我々は、予期せぬ現象、すなわちテクストノベルティが環境中に現れるときに生じる課題に対処する。
環境への新規性の導入は、プランナーの内部モデルに不正確な結果をもたらす可能性がある。
本稿では,同時動作と外部スケジューリングをサポートするための汎用AIエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-22T03:44:04Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。