論文の概要: Infer Human's Intentions Before Following Natural Language Instructions
- arxiv url: http://arxiv.org/abs/2409.18073v1
- Date: Thu, 26 Sep 2024 17:19:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 21:38:28.244994
- Title: Infer Human's Intentions Before Following Natural Language Instructions
- Title(参考訳): 自然言語の指示に先立って人の意図を推測する
- Authors: Yanming Wan, Yue Wu, Yiping Wang, Jiayuan Mao, Natasha Jaques
- Abstract要約: 本研究では,協調作業における自然言語学習の改善を目的とした,ソーシャル・エンボダイド推論によるフォローインストラクション(FISER)を提案する。
我々のフレームワークは、中間的推論ステップとして、人間の目標と意図を明確に推論する。
行動計画を立てる前に、社会的推論を用いて人間の意図を明示的に推測することが、純粋にエンドツーエンドのアプローチを超えることを実証的に実証する。
- 参考スコア(独自算出の注目度): 24.197496779892383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For AI agents to be helpful to humans, they should be able to follow natural
language instructions to complete everyday cooperative tasks in human
environments. However, real human instructions inherently possess ambiguity,
because the human speakers assume sufficient prior knowledge about their hidden
goals and intentions. Standard language grounding and planning methods fail to
address such ambiguities because they do not model human internal goals as
additional partially observable factors in the environment. We propose a new
framework, Follow Instructions with Social and Embodied Reasoning (FISER),
aiming for better natural language instruction following in collaborative
embodied tasks. Our framework makes explicit inferences about human goals and
intentions as intermediate reasoning steps. We implement a set of
Transformer-based models and evaluate them over a challenging benchmark,
HandMeThat. We empirically demonstrate that using social reasoning to
explicitly infer human intentions before making action plans surpasses purely
end-to-end approaches. We also compare our implementation with strong
baselines, including Chain of Thought prompting on the largest available
pre-trained language models, and find that FISER provides better performance on
the embodied social reasoning tasks under investigation, reaching the
state-of-the-art on HandMeThat.
- Abstract(参考訳): AIエージェントが人間に役に立つためには、自然言語の指示に従って、人間の環境における日々の協調作業を完成させるべきである。
しかし、実際の人間の指示は、人間の話者が隠れた目標や意図について十分な事前知識を前提としているため、本質的に曖昧さを持っている。
標準的な言語基盤と計画手法は、人間の内的目標を、環境の中で部分的に観察可能な要素としてモデル化しないため、そのような曖昧さに対処できない。
そこで我々は,協調的実施タスクにおける自然言語教育の改善を目的とした,社会・身体的推論を用いたフォローインストラクション(Follow Instructions with Social and Embodied Reasoning,FISER)を提案する。
我々のフレームワークは、中間的推論ステップとして、人間の目標と意図を明確に推論する。
我々はTransformerベースのモデルのセットを実装し、それを挑戦的なベンチマークであるHandMeThatで評価する。
行動計画を立てる前に、社会的推論を用いて人間の意図を明示的に推測することが、純粋にエンドツーエンドのアプローチを超えることを実証的に実証する。
また、私たちの実装と強力なベースライン(Chain of Thoughtなど)を比較した結果、FISERは調査中の社会的推論タスクにおいて、より優れたパフォーマンスを提供し、HandMeThatの最先端に到達していることがわかった。
関連論文リスト
- SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - Situated Instruction Following [87.37244711380411]
本稿では,実世界のコミュニケーションの非特異性とあいまいさを取り入れた位置指示について述べる。
位置指示の意味は、人間の過去の行動と将来の行動を通じて自然に展開される。
我々の実験は、現在最先端の身体的指示追従(EIF)モデルが、位置する人間の意図の全体的理解を欠いていることを示唆している。
論文 参考訳(メタデータ) (2024-07-15T19:32:30Z) - Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task [17.190635800969456]
本稿では,ロボットとの協調的な対象分類タスクにおいて,人間の意図を推定するために,Large Language Modelsを用いて検討する。
本研究では, ユーザの身振り, 身振り, 表情などの非言語的手がかりを, ユーザの意図を予測するために, 環境状態やユーザの言葉的手がかりと統合する, 新たなマルチモーダルアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T12:15:14Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - HandMeThat: Human-Robot Communication in Physical and Social
Environments [73.91355172754717]
HandMeThatは、物理的および社会的環境における命令理解とフォローの総合評価のためのベンチマークである。
HandMeThatには、人間とロボットの対話の1万エピソードが含まれている。
オフラインとオンラインの強化学習アルゴリズムはHandMeThatでは性能が良くないことを示す。
論文 参考訳(メタデータ) (2023-10-05T16:14:46Z) - The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling
Probabilistic Social Inferences from Linguistic Inputs [50.32802502923367]
確率的目標推論領域における言語駆動の過程と社会的推論への影響について検討する。
本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。
我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。
論文 参考訳(メタデータ) (2023-06-25T19:38:01Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - GoalNet: Inferring Conjunctive Goal Predicates from Human Plan
Demonstrations for Robot Instruction Following [15.405156791794191]
私たちのゴールは、自然言語命令として指定されたタスクを実行するために、ロボットがアクションのシーケンスを学習できるようにすることです。
目的予測の文脈的およびタスク依存的推論のための新しいニューロシンボリックモデルであるGoalNetを導入する。
GoalNetは、最先端のルールベースのアプローチと比較してタスク完了率を大幅に改善した(51%)。
論文 参考訳(メタデータ) (2022-05-14T15:14:40Z) - Inverse Reinforcement Learning with Natural Language Goals [8.972202854038382]
言語条件付きポリシーと報酬関数を学習するための新しい逆強化学習アルゴリズムを提案する。
提案アルゴリズムは,視覚に基づく自然言語によるデータセットの学習において,複数のベースラインをはるかに上回る性能を示した。
論文 参考訳(メタデータ) (2020-08-16T14:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。