論文の概要: Theory of Mind abilities of Large Language Models in Human-Robot
Interaction : An Illusion?
- arxiv url: http://arxiv.org/abs/2401.05302v2
- Date: Wed, 17 Jan 2024 18:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 19:27:54.703185
- Title: Theory of Mind abilities of Large Language Models in Human-Robot
Interaction : An Illusion?
- Title(参考訳): ロボットインタラクションにおける大規模言語モデルのマインド能力の理論 : 幻想か?
- Authors: Mudit Verma, Siddhant Bhambri, Subbarao Kambhampati
- Abstract要約: 大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。
高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。
本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
- 参考スコア(独自算出の注目度): 18.770522926093786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models have shown exceptional generative abilities in various
natural language and generation tasks. However, possible anthropomorphization
and leniency towards failure cases have propelled discussions on emergent
abilities of Large Language Models especially on Theory of Mind (ToM) abilities
in Large Language Models. While several false-belief tests exists to verify the
ability to infer and maintain mental models of another entity, we study a
special application of ToM abilities that has higher stakes and possibly
irreversible consequences : Human Robot Interaction. In this work, we explore
the task of Perceived Behavior Recognition, where a robot employs a Large
Language Model (LLM) to assess the robot's generated behavior in a manner
similar to human observer. We focus on four behavior types, namely -
explicable, legible, predictable, and obfuscatory behavior which have been
extensively used to synthesize interpretable robot behaviors. The LLMs goal is,
therefore to be a human proxy to the agent, and to answer how a certain agent
behavior would be perceived by the human in the loop, for example "Given a
robot's behavior X, would the human observer find it explicable?". We conduct a
human subject study to verify that the users are able to correctly answer such
a question in the curated situations (robot setting and plan) across five
domains. A first analysis of the belief test yields extremely positive results
inflating ones expectations of LLMs possessing ToM abilities. We then propose
and perform a suite of perturbation tests which breaks this illusion, i.e.
Inconsistent Belief, Uninformative Context and Conviction Test. We conclude
that, the high score of LLMs on vanilla prompts showcases its potential use in
HRI settings, however to possess ToM demands invariance to trivial or
irrelevant perturbations in the context which LLMs lack.
- Abstract(参考訳): 大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。
しかしながら、失敗事例に対する擬人化と寛大さは、大きな言語モデルの創発的能力、特に大きな言語モデルにおける心の理論(tom)能力に関する議論を促している。
他者のメンタルモデルを推論し,維持する能力を検証するために,いくつかの偽信テストが存在するが,高い利害関係を持ち,おそらくは不可逆的な結果をもたらすToM能力の特別な応用について検討する。
本研究では,ロボットがLarge Language Model (LLM) を用いてロボットが生成する振る舞いを人間の観察者に似た方法で評価する,知覚的行動認識の課題について検討する。
我々は,解釈可能なロボット行動の合成に広く用いられている4つの行動タイプ,すなわち,説明可能,正当性,予測可能,難読性の4つの行動タイプに着目した。
LLMの目標は、エージェントに対する人間の代理であり、例えば「ロボットの行動 X をすれば、人間の観察者はそれを説明可能であるか?」といった、あるエージェントの動作がループ内でどのように認識されるかに答えることである。
我々は,5つの領域にわたるキュレートされた状況(ロボットの設定と計画)において,ユーザがそのような質問に正しく答えられることを確認するために,人間の被験者による研究を行う。
信念テストの最初の分析は、ToM能力を有するLSMの期待を膨らませる極めて肯定的な結果をもたらす。
次に,この錯覚を破る一連の摂動テスト,すなわち矛盾する信念,非形式的文脈,信念テストを提案する。
結論として,バニラプロンプトにおけるLLMの高得点は,HRI設定におけるその可能性を示すが,LLMが欠落する文脈における自明なあるいは無関係な摂動に対するToM要求には相違がある。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task [17.190635800969456]
本稿では,ロボットとの協調的な対象分類タスクにおいて,人間の意図を推定するために,Large Language Modelsを用いて検討する。
本研究では, ユーザの身振り, 身振り, 表情などの非言語的手がかりを, ユーザの意図を予測するために, 環境状態やユーザの言葉的手がかりと統合する, 新たなマルチモーダルアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T12:15:14Z) - Are Large Language Models Aligned with People's Social Intuitions for Human-Robot Interactions? [7.308479353736709]
大規模言語モデル(LLM)は、ロボット工学、特にハイレベルな行動計画にますます使われている。
本研究では,人間とロボットの相互作用のシナリオにおいて,LLMが人々の直感やコミュニケーションを再現するかどうかを検証する。
視覚モデルでは映像刺激の本質を捉えることができず、LLMは人よりもコミュニケーション行動や行動を評価する傾向にあることを示す。
論文 参考訳(メタデータ) (2024-03-08T22:23:23Z) - PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文 参考訳(メタデータ) (2024-02-26T18:57:52Z) - Violation of Expectation via Metacognitive Prompting Reduces Theory of
Mind Prediction Error in Large Language Models [0.0]
大規模言語モデル(LLM)は、心の理論(ToM)タスクにおいて、魅力的な習熟度を示す。
この、観察不能な精神状態を他人に伝える能力は、人間の社会的認知に不可欠であり、人間と人工知能(AI)の主観的関係において同様に重要であることが証明される。
論文 参考訳(メタデータ) (2023-10-10T20:05:13Z) - The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling
Probabilistic Social Inferences from Linguistic Inputs [50.32802502923367]
確率的目標推論領域における言語駆動の過程と社会的推論への影響について検討する。
本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。
我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。
論文 参考訳(メタデータ) (2023-06-25T19:38:01Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z) - Large Language Models as Zero-Shot Human Models for Human-Robot Interaction [12.455647753787442]
大型言語モデル(LLM)は、人間とロボットの相互作用のためのゼロショット人間モデルとして機能する。
LLMは目的のモデルに匹敵する性能を達成する。
シミュレーションされた信頼に基づくテーブルクリーニングタスクのケーススタディを提案する。
論文 参考訳(メタデータ) (2023-03-06T23:16:24Z) - Robots with Different Embodiments Can Express and Influence Carefulness
in Object Manipulation [104.5440430194206]
本研究では,2つのロボットによるコミュニケーション意図による物体操作の知覚について検討する。
ロボットの動きを設計し,物体の搬送時に注意を喚起するか否かを判断した。
論文 参考訳(メタデータ) (2022-08-03T13:26:52Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z) - Reasoning about Counterfactuals to Improve Human Inverse Reinforcement
Learning [5.072077366588174]
人間は自然に、観察可能な行動について推論することで、他のエージェントの信念や欲求を推測する。
我々は,ロボットの意思決定に対する学習者の現在の理解を,人間のIRLモデルに組み込むことを提案する。
また,人間が見えない環境下でのロボットの動作を予測しにくいことを推定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-03-03T17:06:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。