論文の概要: Large Language Models Fail on Trivial Alterations to Theory-of-Mind
Tasks
- arxiv url: http://arxiv.org/abs/2302.08399v3
- Date: Mon, 20 Feb 2023 03:46:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 12:14:12.200785
- Title: Large Language Models Fail on Trivial Alterations to Theory-of-Mind
Tasks
- Title(参考訳): 大規模言語モデルは思考理論への微妙な変更に失敗する
- Authors: Tomer Ullman
- Abstract要約: 理論・オブ・ミンドのタスクは成功と失敗の両方を示している。
ToMの原則を維持する小さなバリエーションは、結果を彼らの頭に向ける。
一般論として,直観心理学におけるモデル評価のゼロ仮説は懐疑的であるべきだと論じる。
- 参考スコア(独自算出の注目度): 3.3178024597495903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intuitive psychology is a pillar of common-sense reasoning. The replication
of this reasoning in machine intelligence is an important stepping-stone on the
way to human-like artificial intelligence. Several recent tasks and benchmarks
for examining this reasoning in Large-Large Models have focused in particular
on belief attribution in Theory-of-Mind tasks. These tasks have shown both
successes and failures. We consider in particular a recent purported success
case, and show that small variations that maintain the principles of ToM turn
the results on their head. We argue that in general, the zero-hypothesis for
model evaluation in intuitive psychology should be skeptical, and that outlying
failure cases should outweigh average success rates. We also consider what
possible future successes on Theory-of-Mind tasks by more powerful LLMs would
mean for ToM tasks with people.
- Abstract(参考訳): 直観心理学は常識推論の柱である。
マシンインテリジェンスにおけるこの推論の再現は、人間のような人工知能への道のりの重要な一歩である。
大規模モデルにおけるこの推論を検証するための最近のいくつかのタスクとベンチマークは、特に思考理論のタスクにおける信念の帰属に焦点を当てている。
これらのタスクは成功と失敗の両方を示しています。
特に,最近報告された成功事例について考察し,ToMの原則を維持する小さなバリエーションが,その結果を反映していることを示す。
一般論として,直観心理学におけるモデル評価のゼロ仮説は懐疑的であり,失敗事例は平均的成功率を上回るべきであると論じる。
また、より強力なLCMによる「ミステリー・オブ・ミンド」タスクにおける将来的な成功の可能性についても検討する。
関連論文リスト
- NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding [55.38254464415964]
現在、マインド評価の理論は、機械生成データやゲーム設定を用いたテストモデルに焦点を合わせており、ショートカットや素早い相関が生じる傾向にある。
我々は,多次元精神状態を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。
論文 参考訳(メタデータ) (2024-04-21T11:51:13Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning
in Large Language Models [31.831042765744204]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。
本稿では,高次マインド理論のベンチマークであるHI-TOMを紹介する。
各種Large Language Models (LLM) を用いた実験により,高次ToMタスクの性能低下が示唆された。
論文 参考訳(メタデータ) (2023-10-25T16:41:15Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z) - Can Pretrained Language Models (Yet) Reason Deductively? [72.9103833294272]
PLMの学習可能な推論能力(明示的推論能力)を総合的に評価する。
本研究の主目的は, PLMがまだ信頼性の高い導出的推論を行うことができないことである。
PLMは人間レベルの推論能力からは程遠いことがわかりました。
論文 参考訳(メタデータ) (2022-10-12T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。