論文の概要: Vision-Language-Policy Model for Dynamic Robot Task Planning
- arxiv url: http://arxiv.org/abs/2512.19178v1
- Date: Mon, 22 Dec 2025 09:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.687135
- Title: Vision-Language-Policy Model for Dynamic Robot Task Planning
- Title(参考訳): 動的ロボットタスク計画のための視覚・言語・政治モデル
- Authors: Jin Wang, Kim Tien Ly, Jacques Cloete, Nikos Tsagarakis, Ioannis Havoutis,
- Abstract要約: 自然言語コマンドと自律実行のギャップは、ロボット工学にとってオープンな課題である。
従来のロボットタスク計画アプローチは、高レベルのタスク推論で低レベルの実行をブリッジするのに苦労することが多い。
動的ロボットタスク計画のための言語モデルに基づく新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.427578025752219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bridging the gap between natural language commands and autonomous execution in unstructured environments remains an open challenge for robotics. This requires robots to perceive and reason over the current task scene through multiple modalities, and to plan their behaviors to achieve their intended goals. Traditional robotic task-planning approaches often struggle to bridge low-level execution with high-level task reasoning, and cannot dynamically update task strategies when instructions change during execution, which ultimately limits their versatility and adaptability to new tasks. In this work, we propose a novel language model-based framework for dynamic robot task planning. Our Vision-Language-Policy (VLP) model, based on a vision-language model fine-tuned on real-world data, can interpret semantic instructions and integrate reasoning over the current task scene to generate behavior policies that control the robot to accomplish the task. Moreover, it can dynamically adjust the task strategy in response to changes in the task, enabling flexible adaptation to evolving task requirements. Experiments conducted with different robots and a variety of real-world tasks show that the trained model can efficiently adapt to novel scenarios and dynamically update its policy, demonstrating strong planning autonomy and cross-embodiment generalization. Videos: https://robovlp.github.io/
- Abstract(参考訳): 自然言語コマンドと非構造化環境での自律実行のギャップを埋めることは、ロボット工学にとってオープンな課題である。
これは、ロボットが現在のタスクシーンを複数のモダリティを通して知覚し、推論し、意図した目標を達成するために行動計画を行うことを必要とする。
従来のロボットタスクプランニングアプローチは、高レベルのタスク推論で低レベルの実行をブリッジするのに苦労することが多く、実行中に命令が変更された場合、タスク戦略を動的に更新することはできない。
本研究では,動的ロボットタスク計画のための言語モデルに基づく新しいフレームワークを提案する。
我々のビジョン・ランゲージ・ポリシー(VLP)モデルは、実世界のデータに基づいて微調整された視覚言語モデルに基づいて、セマンティックインストラクションを解釈し、現在のタスクシーン上の推論を統合することで、ロボットがタスクを達成するための行動ポリシーを生成する。
さらに、タスクの変更に応じてタスク戦略を動的に調整し、タスク要求のフレキシブルな適応を可能にする。
異なるロボットと様々な実世界のタスクで実施された実験は、トレーニングされたモデルが新しいシナリオに効率的に適応し、ポリシーを動的に更新できることを示し、強力な計画自律性とクロス・エボディメントの一般化を示している。
ビデオ: https://robovlp.github.io/
関連論文リスト
- Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations [76.79742393097358]
Vision-Language Action (VLA)モデルは、視覚言語モデル(VLM)をロボット工学に拡張することを約束している。
既存の微調整手法には特異性がなく、タスクの視覚的、言語的、物理的特性に関わらず、同じパラメータセットを適用する。
神経科学における機能的特異性に触発されて、与えられたタスクに特有のスパースモデル表現を微調整することがより効果的である、という仮説を立てる。
論文 参考訳(メタデータ) (2025-11-27T18:50:21Z) - Prompting Robot Teams with Natural Language [10.072213190133546]
鍵となる課題は、集団における個人の行動は特定し解釈することが難しいことである。
これは、タスクのロジックとセマンティクスによって要求される表現能力を持つフレームワークを必要とする。
シミュレーションおよび実世界のマルチロボットタスクにおいて,この単一軽量解釈モデルの評価を行う。
論文 参考訳(メタデータ) (2025-09-29T10:29:18Z) - STEER: Flexible Robotic Manipulation via Dense Language Grounding [16.97343810491996]
STEERは、高精度でフレキシブルな低レベル制御で高レベルの常識推論をブリッジする、ロボット学習フレームワークである。
本手法は, 複雑な状況認識を, 厳密なアノテーションによる言語基盤ポリシーの訓練を通じて, 行動可能な低レベル行動に変換する。
論文 参考訳(メタデータ) (2024-11-05T18:48:12Z) - Grounding Language Models in Autonomous Loco-manipulation Tasks [3.8363685417355557]
異なるシナリオにおけるタスクに基づいて行動を学び、選択し、計画する新しいフレームワークを提案する。
我々は,大規模言語モデル(LLM)の計画と推論機能を活用し,階層的なタスクグラフを構築する。
CENTAUROロボットを用いたシミュレーションおよび実世界の実験により、言語モデルに基づくプランナーが、新しいロコ操作タスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-09-02T15:27:48Z) - Autonomous Behavior Planning For Humanoid Loco-manipulation Through Grounded Language Model [6.9268843428933025]
大規模言語モデル(LLM)は、意味情報の理解と処理のための強力な計画と推論能力を示している。
本稿では,ロボットが与えられたテキストによる指示の下で,自律的に動作や低レベル実行を計画できる新しい言語モデルベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-15T17:33:32Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Interactive Task Planning with Language Models [89.5839216871244]
対話型ロボットフレームワークは、長期のタスクプランニングを達成し、実行中であっても、新しい目標や異なるタスクに容易に一般化することができる。
最近の大規模言語モデルに基づくアプローチは、よりオープンな計画を可能にするが、しばしば、重いプロンプトエンジニアリングまたはドメイン固有の事前訓練されたモデルを必要とする。
言語モデルを用いた対話型タスクプランニングを実現するための,高レベルプランニングと低レベルスキル実行を併用したシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T17:59:12Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。