論文の概要: VLM-driven Behavior Tree for Context-aware Task Planning
- arxiv url: http://arxiv.org/abs/2501.03968v2
- Date: Fri, 10 Jan 2025 10:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 12:07:37.480038
- Title: VLM-driven Behavior Tree for Context-aware Task Planning
- Title(参考訳): コンテキスト対応タスク計画のためのVLM駆動行動木
- Authors: Naoki Wake, Atsushi Kanehira, Jun Takamatsu, Kazuhiro Sasabuchi, Katsushi Ikeuchi,
- Abstract要約: 本稿では、視覚言語モデル(VLM)を利用して行動木(BT)を対話的に生成・編集する新しいフレームワークを提案する。
我々のアプローチの重要な特徴は、自己進行型視覚条件による条件制御にある。
われわれのフレームワークを実世界のカフェのシナリオで検証し、その実現可能性と限界を実証した。
- 参考スコア(独自算出の注目度): 8.07285448283823
- License:
- Abstract: The use of Large Language Models (LLMs) for generating Behavior Trees (BTs) has recently gained attention in the robotics community, yet remains in its early stages of development. In this paper, we propose a novel framework that leverages Vision-Language Models (VLMs) to interactively generate and edit BTs that address visual conditions, enabling context-aware robot operations in visually complex environments. A key feature of our approach lies in the conditional control through self-prompted visual conditions. Specifically, the VLM generates BTs with visual condition nodes, where conditions are expressed as free-form text. Another VLM process integrates the text into its prompt and evaluates the conditions against real-world images during robot execution. We validated our framework in a real-world cafe scenario, demonstrating both its feasibility and limitations.
- Abstract(参考訳): 行動木(BT)の生成にLarge Language Models(LLMs)を用いることは、ロボティクスコミュニティで最近注目を集めているが、まだ開発の初期段階にある。
本稿では視覚条件に対処するBTを対話的に生成・編集するために視覚言語モデル(VLM)を活用する新しいフレームワークを提案する。
我々のアプローチの重要な特徴は、自己進行型視覚条件による条件制御にある。
具体的には、VLMは、条件を自由形式のテキストとして表現する視覚条件ノードを持つBTを生成する。
別のVLMプロセスは、ロボットの実行中にテキストをそのプロンプトに統合し、実世界の画像に対する条件を評価する。
われわれのフレームワークを実世界のカフェのシナリオで検証し、その実現可能性と限界を実証した。
関連論文リスト
- Plant in Cupboard, Orange on Table, Book on Shelf. Benchmarking Practical Reasoning and Situation Modelling in a Text-Simulated Situated Environment [18.256529559741075]
大規模言語モデル(LLM)は、自然言語を介して対話するための'チャットボット'として有名になった。
我々は、非常に抽象的に、家庭の設定をシミュレートするシンプルなテキストベースの環境を実装した。
以上の結果から,環境の複雑さとゲーム制限が性能を損なうことが示唆された。
論文 参考訳(メタデータ) (2025-02-17T12:20:39Z) - Visual Language Models as Operator Agents in the Space Domain [36.943670587532026]
VLM(Vision-Language Models)は、宇宙ミッションにおける自律的な制御と意思決定を強化する。
ソフトウェア環境では、複雑な軌道操作を行うために、VLMを用いてグラフィカルユーザインタフェースの視覚的なスクリーンショットを解釈する。
ハードウェアの分野では、衛星などの物理空間オブジェクトを検査・診断するためのカメラを備えたロボットシステムとVLMを統合する。
論文 参考訳(メタデータ) (2025-01-14T03:03:37Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - SituationalLLM: Proactive language models with scene awareness for dynamic, contextual task guidance [13.155859243167619]
本研究では,構造化シーン情報を大規模言語モデルに統合する新しいアプローチである PresentalLLM を提案する。
カスタムのScene Graph Languageでオブジェクト、属性、関係をエンコードすることで、AciencealLLMは環境コンテキストのギャップを積極的に識別し、ユーザインタラクション中に明確化を求める。
実験結果から、ALLLMはタスク特異性、信頼性、適応性において、ジェネリックLLMベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-06-19T07:42:48Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。