論文の概要: Pragmatic Instruction Following and Goal Assistance via Cooperative
Language-Guided Inverse Planning
- arxiv url: http://arxiv.org/abs/2402.17930v1
- Date: Tue, 27 Feb 2024 23:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:55:21.195761
- Title: Pragmatic Instruction Following and Goal Assistance via Cooperative
Language-Guided Inverse Planning
- Title(参考訳): 協調言語誘導逆計画による実践的指導と目標支援
- Authors: Tan Zhi-Xuan, Lance Ying, Vikash Mansinghka, Joshua B. Tenenbaum
- Abstract要約: 本稿では,協調型言語誘導逆計画探索(CLIPS)を紹介する。
我々のエージェントは、協力的なプランナーとして人間をモデル化し、アシスタントに共同計画を伝える。
2つの協調計画領域(ドア,キー&ジェム,バーチャルホーム)におけるこれらの機能の評価
- 参考スコア(独自算出の注目度): 52.91457780361305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People often give instructions whose meaning is ambiguous without further
context, expecting that their actions or goals will disambiguate their
intentions. How can we build assistive agents that follow such instructions in
a flexible, context-sensitive manner? This paper introduces cooperative
language-guided inverse plan search (CLIPS), a Bayesian agent architecture for
pragmatic instruction following and goal assistance. Our agent assists a human
by modeling them as a cooperative planner who communicates joint plans to the
assistant, then performs multimodal Bayesian inference over the human's goal
from actions and language, using large language models (LLMs) to evaluate the
likelihood of an instruction given a hypothesized plan. Given this posterior,
our assistant acts to minimize expected goal achievement cost, enabling it to
pragmatically follow ambiguous instructions and provide effective assistance
even when uncertain about the goal. We evaluate these capabilities in two
cooperative planning domains (Doors, Keys & Gems and VirtualHome), finding that
CLIPS significantly outperforms GPT-4V, LLM-based literal instruction following
and unimodal inverse planning in both accuracy and helpfulness, while closely
matching the inferences and assistive judgments provided by human raters.
- Abstract(参考訳): 人々はしばしば、自分の行動や目標が意図を曖昧にすることを期待して、さらなる文脈なしに意味が曖昧である指示を与える。
そのような指示に従う補助エージェントを、柔軟で文脈に敏感な方法でどうやって構築できるのか?
本稿では,実用的指導支援のためのベイジアンエージェントアーキテクチャであるclips(colleborative language-guided inverse plan search)を提案する。
エージェントは, 協調プランナーとして人間をモデル化し, 補助者に対して共同計画を伝えるとともに, 行動や言語からの目標に対するマルチモーダルベイズ推定を行い, 大規模言語モデル(LLM)を用いて, 仮説的計画に基づく指導の可能性を評価する。
この後続を前提として,我々のアシスタントは,目標達成コストの最小化を図り,不明瞭な指示を実践的に追従し,目標が不確実であっても効果的な支援を行う。
本研究は,2つの協調計画領域(Doors, Keys & Gems, VirtualHome)において,CLIPSがGPT-4V, LLMをベースとしたリテラル命令, および不定型逆計画において, 精度と有用性の両方において有意に優れており, 推論と補助的判断とを密接に一致させた。
関連論文リスト
- ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Evaluating Multi-Agent Coordination Abilities in Large Language Models [28.352480978451865]
大きな言語モデル(LLM)は、人間のような方法で言語を理解し、生成し、解釈する顕著な能力を持っている。
各種調整シナリオにおける LLM を用いたエージェントの有効性の構築と評価を行う。
論文 参考訳(メタデータ) (2023-10-05T21:18:15Z) - Adaptation and Communication in Human-Robot Teaming to Handle
Discrepancies in Agents' Beliefs about Plans [13.637799815698559]
我々はモンテカルロ木探索に基づくオンライン実行アルゴリズムを提案し,その動作を計画する。
私たちのエージェントは、共有されたメンタルモデルを保証することなく、チームで作業するための装備がより優れていることを示しています。
論文 参考訳(メタデータ) (2023-07-07T03:05:34Z) - Inferring the Goals of Communicating Agents from Actions and
Instructions [47.5816320484482]
本稿では,あるエージェント,プリンシパルが,その共有計画に関する自然言語指示を他のエージェント,アシスタントに伝達できるような協力チームのモデルを提案する。
3人目のオブザーバが、アクションや指示からマルチモーダルな逆計画を通じて、チームの目標を推測する方法を示します。
我々は,マルチエージェントグリッドワールドにおける人間の目標推定と比較し,モデルの推定が人間の判断と密接に相関していることを見出した。
論文 参考訳(メタデータ) (2023-06-28T13:43:46Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - NOPA: Neurally-guided Online Probabilistic Assistance for Building
Socially Intelligent Home Assistants [79.27554831580309]
われわれは、家庭内の人々を支援するために、社会的にインテリジェントなロボットを構築する方法を研究する。
ロボットは人間の目標を同時に推測しなければならない。
論文 参考訳(メタデータ) (2023-01-12T18:59:34Z) - Neuro-Symbolic Causal Language Planning with Commonsense Prompting [67.06667162430118]
言語プランニングは、より単純な低レベルステップに分解することで、複雑な高レベルな目標を実装することを目的としている。
以前の手法では、大規模な言語モデルからそのような能力を得るために、手動の例えか注釈付きプログラムが必要である。
本稿では,LLMからの手続き的知識をコモンセンス・インフュージョン・プロンプトにより引き起こすニューロシンボリック因果言語プランナー(CLAP)を提案する。
論文 参考訳(メタデータ) (2022-06-06T22:09:52Z) - GoalNet: Inferring Conjunctive Goal Predicates from Human Plan
Demonstrations for Robot Instruction Following [15.405156791794191]
私たちのゴールは、自然言語命令として指定されたタスクを実行するために、ロボットがアクションのシーケンスを学習できるようにすることです。
目的予測の文脈的およびタスク依存的推論のための新しいニューロシンボリックモデルであるGoalNetを導入する。
GoalNetは、最先端のルールベースのアプローチと比較してタスク完了率を大幅に改善した(51%)。
論文 参考訳(メタデータ) (2022-05-14T15:14:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。