論文の概要: Prompting Robot Teams with Natural Language
- arxiv url: http://arxiv.org/abs/2509.24575v1
- Date: Mon, 29 Sep 2025 10:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.924309
- Title: Prompting Robot Teams with Natural Language
- Title(参考訳): 自然言語によるロボットチームのプロンプト
- Authors: Nicolas Pfitzer, Eduardo Sebastián, Ajay Shankar, Amanda Prorok,
- Abstract要約: 鍵となる課題は、集団における個人の行動は特定し解釈することが難しいことである。
これは、タスクのロジックとセマンティクスによって要求される表現能力を持つフレームワークを必要とする。
シミュレーションおよび実世界のマルチロボットタスクにおいて,この単一軽量解釈モデルの評価を行う。
- 参考スコア(独自算出の注目度): 10.072213190133546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a framework towards prompting multi-robot teams with high-level tasks using natural language expressions. Our objective is to use the reasoning capabilities demonstrated by recent language models in understanding and decomposing human expressions of intent, and repurpose these for multi-robot collaboration and decision-making. The key challenge is that an individual's behavior in a collective can be hard to specify and interpret, and must continuously adapt to actions from others. This necessitates a framework that possesses the representational capacity required by the logic and semantics of a task, and yet supports decentralized and interactive real-time operation. We solve this dilemma by recognizing that a task can be represented as a deterministic finite automaton (DFA), and that recurrent neural networks (RNNs) can encode numerous automata. This allows us to distill the logic and sequential decompositions of sub-tasks obtained from a language model into an RNN, and align its internal states with the semantics of a given task. By training a graph neural network (GNN) control policy that is conditioned on the hidden states of the RNN and the language embeddings, our method enables robots to execute task-relevant actions in a decentralized manner. We present evaluations of this single light-weight interpretable model on various simulated and real-world multi-robot tasks that require sequential and collaborative behavior by the team -- sites.google.com/view/prompting-teams.
- Abstract(参考訳): 本稿では,自然言語表現を用いたハイレベルなタスクを複数ロボットチームに提供する枠組みを提案する。
本研究の目的は,人間の意図表現の理解と分解において,近年の言語モデルが示す推論機能を利用することであり,これらをマルチロボット協調と意思決定に再利用することである。
鍵となる課題は、集団における個人の行動は特定や解釈が困難であり、他人の行動に継続的に適応しなければならないことである。
これは、タスクのロジックとセマンティクスによって要求される表現能力を持つフレームワークを必要とするが、非集中的でインタラクティブなリアルタイム操作をサポートする。
このジレンマは、タスクが決定論的有限オートマトン(DFA)として表現され、リカレントニューラルネットワーク(RNN)が多数のオートマトンをエンコードできることを認識して解決する。
これにより、言語モデルから得られたサブタスクの論理と逐次分解をRNNに蒸留し、その内部状態を与えられたタスクのセマンティクスと整合させることができる。
RNNの隠れ状態と言語埋め込みを条件としたグラフニューラルネットワーク(GNN)制御ポリシをトレーニングすることにより,ロボットがタスク関連アクションを分散的に実行できるようにする。
シミュレーションおよび実世界の複数ロボットタスクに対して,この単一軽量解釈モデルの評価を行った。
関連論文リスト
- NNTile: a machine learning framework capable of training extremely large GPT language models on a single node [83.9328245724548]
NNTileはタスクベースの並列処理を実装したStarPUライブラリをベースとしている。
これは、大きなニューラルネットワークをトレーニングするために必要な特定の操作が、CPUコアまたはGPUデバイスのいずれかで実行されることを意味する。
論文 参考訳(メタデータ) (2025-04-17T16:22:32Z) - Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。
音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。
システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文 参考訳(メタデータ) (2024-10-08T20:46:39Z) - Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task [17.190635800969456]
本稿では,ロボットとの協調的な対象分類タスクにおいて,人間の意図を推定するために,Large Language Modelsを用いて検討する。
本研究では, ユーザの身振り, 身振り, 表情などの非言語的手がかりを, ユーザの意図を予測するために, 環境状態やユーザの言葉的手がかりと統合する, 新たなマルチモーダルアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T12:15:14Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - tagE: Enabling an Embodied Agent to Understand Human Instructions [3.943519623674811]
我々は, Embodied Agent (tagE) のためのタスク・アンド・引数・グラウンドティング(タスク・アンド・引数・グラウンドディング)と呼ばれる新しいシステムを導入する。
本システムでは,自然言語で表現された複雑なタスク命令から一連のタスクを抽出するために,発明的なニューラルネットワークモデルを採用している。
提案モデルでは,入れ子デコードに富んだエンコーダ・デコーダ・フレームワークを用いて,複雑な命令からタスクとその引数を効果的に抽出する。
論文 参考訳(メタデータ) (2023-10-24T08:17:48Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - RObotic MAnipulation Network (ROMAN) $\unicode{x2013}$ Hybrid
Hierarchical Learning for Solving Complex Sequential Tasks [70.69063219750952]
ロボットマニピュレーションネットワーク(ROMAN)のハイブリッド階層型学習フレームワークを提案する。
ROMANは、行動クローニング、模倣学習、強化学習を統合することで、タスクの汎用性と堅牢な障害回復を実現する。
実験結果から,これらの専門的な操作専門家の組織化と活性化により,ROMANは高度な操作タスクの長いシーケンスを達成するための適切なシーケンシャルなアクティベーションを生成することがわかった。
論文 参考訳(メタデータ) (2023-06-30T20:35:22Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。