論文の概要: Grounding Language Models with Semantic Digital Twins for Robotic Planning
- arxiv url: http://arxiv.org/abs/2506.16493v1
- Date: Thu, 19 Jun 2025 17:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.193068
- Title: Grounding Language Models with Semantic Digital Twins for Robotic Planning
- Title(参考訳): ロボット計画のための意味的デジタル双対を用いた接地言語モデル
- Authors: Mehreen Naeem, Andrew Melnik, Michael Beetz,
- Abstract要約: セマンティック・デジタル・ツインズ(SDT)とLarge Language Models(LLM)を統合する新しいフレームワークを提案する。
提案フレームワークは,高レベル推論とセマンティック環境理解を効果的に組み合わせ,不確実性と障害に直面した信頼性の高いタスク完了を実現する。
- 参考スコア(独自算出の注目度): 6.474368392218828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel framework that integrates Semantic Digital Twins (SDTs) with Large Language Models (LLMs) to enable adaptive and goal-driven robotic task execution in dynamic environments. The system decomposes natural language instructions into structured action triplets, which are grounded in contextual environmental data provided by the SDT. This semantic grounding allows the robot to interpret object affordances and interaction rules, enabling action planning and real-time adaptability. In case of execution failures, the LLM utilizes error feedback and SDT insights to generate recovery strategies and iteratively revise the action plan. We evaluate our approach using tasks from the ALFRED benchmark, demonstrating robust performance across various household scenarios. The proposed framework effectively combines high-level reasoning with semantic environment understanding, achieving reliable task completion in the face of uncertainty and failure.
- Abstract(参考訳): 本稿では,セマンティック・デジタル・ツインズ(SDT)とLarge Language Models(LLM)を統合し,動的環境における適応的・目標駆動型ロボットタスク実行を実現する新しいフレームワークを提案する。
本システムは,SDTによって提供される文脈的環境データに基づいて,自然言語命令を構造化された三重項に分解する。
このセマンティックグラウンドリングにより、ロボットはオブジェクトの余裕と相互作用のルールを解釈し、アクションプランニングとリアルタイム適応を可能にする。
実行が失敗した場合、LSMはエラーフィードバックとSDTインサイトを使用してリカバリ戦略を生成し、アクションプランを反復的に修正する。
ALFREDベンチマークのタスクを用いたアプローチの評価を行い、様々な家庭シナリオにおける堅牢なパフォーマンスを実証した。
提案フレームワークは,高レベル推論とセマンティック環境理解を効果的に組み合わせ,不確実性と障害に直面した信頼性の高いタスク完了を実現する。
関連論文リスト
- Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning [2.111102681327218]
本稿では,古典的計画と大規模言語モデルを統合するアプローチを提案する。
本稿では,ロボットが実現不可能なタスクを抽出できるようにする階層型定式化を提案する。
提案手法は,3次元シーングラフを用いてモデル化した環境において,タスクの適応と実行を効果的に行うことができることを示す。
論文 参考訳(メタデータ) (2025-06-18T19:14:56Z) - Ontology-driven Prompt Tuning for LLM-based Task and Motion Planning [0.20940572815908076]
タスク・アンド・モーション・プランニング(TAMP)アプローチは、ハイレベルなシンボリック・プランと低レベルなモーション・プランニングを組み合わせたものである。
LLMは、タスクを記述するための直感的で柔軟な方法として自然言語を提供することによって、タスク計画を変える。
本研究は、知識に基づく推論を用いてユーザプロンプトを洗練・拡張する新しいプロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T13:18:45Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Temporal and Semantic Evaluation Metrics for Foundation Models in Post-Hoc Analysis of Robotic Sub-tasks [1.8124328823188356]
本稿では,トラジェクトリデータを時間的境界と自然言語に基づく記述サブタスクに分解するフレームワークを提案する。
我々のフレームワークは、全軌道を構成する低レベルのサブタスクに対して、時間ベースの記述と言語ベースの記述の両方を提供する。
この尺度は2つのサブタスク分解の間の言語記述の時間的アライメントと意味的忠実度を測定する。
論文 参考訳(メタデータ) (2024-03-25T22:39:20Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers [20.857692296678632]
人間とロボットの効果的なインタラクションには、ロボットは複雑な長期的タスクを理解し、計画し、実行する必要がある。
大規模言語モデルの最近の進歩は、自然言語をロボットのアクションシーケンスに変換することを約束している。
本研究では,複雑なタスク領域において,LLMをプランナとして用いる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-10T21:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。