Fugu-MT 論文翻訳(概要): Pragmatic Instruction Following and Goal Assistance via Cooperative Language-Guided Inverse Planning

論文の概要: Pragmatic Instruction Following and Goal Assistance via Cooperative Language-Guided Inverse Planning

arxiv url: http://arxiv.org/abs/2402.17930v1
Date: Tue, 27 Feb 2024 23:06:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 16:55:21.195761
Title: Pragmatic Instruction Following and Goal Assistance via Cooperative Language-Guided Inverse Planning
Title（参考訳）: 協調言語誘導逆計画による実践的指導と目標支援
Authors: Tan Zhi-Xuan, Lance Ying, Vikash Mansinghka, Joshua B. Tenenbaum
Abstract要約: 本稿では,協調型言語誘導逆計画探索(CLIPS)を紹介する。我々のエージェントは、協力的なプランナーとして人間をモデル化し、アシスタントに共同計画を伝える。 2つの協調計画領域(ドア,キー&ジェム,バーチャルホーム)におけるこれらの機能の評価
参考スコア（独自算出の注目度）: 52.91457780361305
License: http://creativecommons.org/licenses/by/4.0/
Abstract: People often give instructions whose meaning is ambiguous without further context, expecting that their actions or goals will disambiguate their intentions. How can we build assistive agents that follow such instructions in a flexible, context-sensitive manner? This paper introduces cooperative language-guided inverse plan search (CLIPS), a Bayesian agent architecture for pragmatic instruction following and goal assistance. Our agent assists a human by modeling them as a cooperative planner who communicates joint plans to the assistant, then performs multimodal Bayesian inference over the human's goal from actions and language, using large language models (LLMs) to evaluate the likelihood of an instruction given a hypothesized plan. Given this posterior, our assistant acts to minimize expected goal achievement cost, enabling it to pragmatically follow ambiguous instructions and provide effective assistance even when uncertain about the goal. We evaluate these capabilities in two cooperative planning domains (Doors, Keys & Gems and VirtualHome), finding that CLIPS significantly outperforms GPT-4V, LLM-based literal instruction following and unimodal inverse planning in both accuracy and helpfulness, while closely matching the inferences and assistive judgments provided by human raters.
Abstract（参考訳）: 人々はしばしば、自分の行動や目標が意図を曖昧にすることを期待して、さらなる文脈なしに意味が曖昧である指示を与える。そのような指示に従う補助エージェントを、柔軟で文脈に敏感な方法でどうやって構築できるのか? 本稿では,実用的指導支援のためのベイジアンエージェントアーキテクチャであるclips(colleborative language-guided inverse plan search)を提案する。エージェントは, 協調プランナーとして人間をモデル化し, 補助者に対して共同計画を伝えるとともに, 行動や言語からの目標に対するマルチモーダルベイズ推定を行い, 大規模言語モデル(LLM)を用いて, 仮説的計画に基づく指導の可能性を評価する。この後続を前提として,我々のアシスタントは,目標達成コストの最小化を図り,不明瞭な指示を実践的に追従し,目標が不確実であっても効果的な支援を行う。本研究は,2つの協調計画領域(Doors, Keys & Gems, VirtualHome)において,CLIPSがGPT-4V, LLMをベースとしたリテラル命令, および不定型逆計画において, 精度と有用性の両方において有意に優れており, 推論と補助的判断とを密接に一致させた。

関連論文リスト

HELP: Hierarchical Embodied Language Planner for Household Tasks [75.38606213726906]
複雑なシナリオを扱うエージェントは、堅牢な計画能力に大きく依存する。広範な言語知識を備えた大規模言語モデルは、この役割を果たすことができる。 LLMをベースとした一組のエージェントからなる階層型エンボディード言語プランナーHELPを提案する。
論文参考訳（メタデータ） (2025-12-25T15:54:08Z)
IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction [51.130510883952546]
Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)を活用して、ロボット制御との認識を両立させる。カリキュラム学習パラダイムと効率的な推論機構を備えたVLAフレームワークである textbfIntentionVLA を提案する。提案手法はまず,意図推論,空間的接地,コンパクトな具体的推論を組み合わせ,慎重に設計した推論データを活用する。
論文参考訳（メタデータ） (2025-10-09T04:49:46Z)
ProToM: Promoting Prosocial Behaviour via Theory of Mind-Informed Feedback [26.010571231129152]
本稿では,マルチエージェントシステムにおける社会的行動を促進する,心的インフォームド・ファシリテータであるProToMを紹介する。 ProToMは、目標と有用なフィードバックを提供し、より高い成功率、タスク完了時間の短縮を実現し、一貫して人間のユーザに好まれる。
論文参考訳（メタデータ） (2025-09-05T13:30:17Z)
Infer Human's Intentions Before Following Natural Language Instructions [24.197496779892383]
本研究では,協調作業における自然言語学習の改善を目的とした,ソーシャル・エンボダイド推論によるフォローインストラクション(FISER)を提案する。我々のフレームワークは、中間的推論ステップとして、人間の目標と意図を明確に推論する。行動計画を立てる前に、社会的推論を用いて人間の意図を明示的に推測することが、純粋にエンドツーエンドのアプローチを超えることを実証的に実証する。
論文参考訳（メタデータ） (2024-09-26T17:19:49Z)
Probabilistically Correct Language-based Multi-Robot Planning using Conformal Prediction [11.614036749291216]
本稿では,S-ATLAS for Safe plAnning for Teams of Language-instructed Agentsを提案する。提案したプランナは,計画実行が成功すると仮定して,ユーザ指定のタスク成功率を達成可能であることを示す。我々は,本手法が計算効率が高く,ヘルプレートが低いことを示す関連研究との比較実験を行った。
論文参考訳（メタデータ） (2024-02-23T15:02:44Z)
ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2023-12-12T08:30:09Z)
Inferring the Goals of Communicating Agents from Actions and Instructions [47.5816320484482]
本稿では,あるエージェント,プリンシパルが,その共有計画に関する自然言語指示を他のエージェント,アシスタントに伝達できるような協力チームのモデルを提案する。 3人目のオブザーバが、アクションや指示からマルチモーダルな逆計画を通じて、チームの目標を推測する方法を示します。我々は,マルチエージェントグリッドワールドにおける人間の目標推定と比較し,モデルの推定が人間の判断と密接に相関していることを見出した。
論文参考訳（メタデータ） (2023-06-28T13:43:46Z)
NOPA: Neurally-guided Online Probabilistic Assistance for Building Socially Intelligent Home Assistants [79.27554831580309]
われわれは、家庭内の人々を支援するために、社会的にインテリジェントなロボットを構築する方法を研究する。ロボットは人間の目標を同時に推測しなければならない。
論文参考訳（メタデータ） (2023-01-12T18:59:34Z)
Neuro-Symbolic Causal Language Planning with Commonsense Prompting [67.06667162430118]
言語プランニングは、より単純な低レベルステップに分解することで、複雑な高レベルな目標を実装することを目的としている。以前の手法では、大規模な言語モデルからそのような能力を得るために、手動の例えか注釈付きプログラムが必要である。本稿では,LLMからの手続き的知識をコモンセンス・インフュージョン・プロンプトにより引き起こすニューロシンボリック因果言語プランナー(CLAP)を提案する。
論文参考訳（メタデータ） (2022-06-06T22:09:52Z)
Learning Action Conditions from Instructional Manuals for Instruction Understanding [48.52663250368341]
本稿では,行動条件推論というタスクを提案し,命令マニュアルにおける行動条件の事前条件と後条件の高品質なアノテートデータセットを収集する。本稿では,オンライン指導マニュアルから大規模トレーニングインスタンスを自動構築する弱い教師付きアプローチを提案し,人間に注釈を付けて検証したデータセットをキュレートし,現在のNLPモデルが命令テキストの動作条件依存性をいかに推測できるかを検証した。
論文参考訳（メタデータ） (2022-05-25T00:19:59Z)
GoalNet: Inferring Conjunctive Goal Predicates from Human Plan Demonstrations for Robot Instruction Following [15.405156791794191]
私たちのゴールは、自然言語命令として指定されたタスクを実行するために、ロボットがアクションのシーケンスを学習できるようにすることです。目的予測の文脈的およびタスク依存的推論のための新しいニューロシンボリックモデルであるGoalNetを導入する。 GoalNetは、最先端のルールベースのアプローチと比較してタスク完了率を大幅に改善した(51%)。
論文参考訳（メタデータ） (2022-05-14T15:14:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。