論文の概要: SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs
- arxiv url: http://arxiv.org/abs/2410.13648v1
- Date: Thu, 17 Oct 2024 15:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:55.581670
- Title: SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs
- Title(参考訳): SimpleToM: LLMにおける明示的ToM推論と暗黙的ToMアプリケーション間のギャップを露呈する
- Authors: Yuling Gu, Oyvind Tafjord, Hyunwoo Kim, Jared Moore, Ronan Le Bras, Peter Clark, Yejin Choi,
- Abstract要約: 大規模言語モデル(LLM)が行動予測に「心の理論」(ToM)を暗黙的に適用できるかどうかを検証する。
ToM推論の異なる程度をテストする3つの質問を含む新しいデータセットSimpleTomを作成します。
私たちの知る限り、SimpleToMは、現実的なシナリオにおけるメンタルステートの知識を必要とする下流の推論を探求する最初のデータセットです。
- 参考スコア(独自算出の注目度): 72.06808538971487
- License:
- Abstract: While prior work has explored whether large language models (LLMs) possess a "theory of mind" (ToM) - the ability to attribute mental states to oneself and others - there has been little work testing whether LLMs can implicitly apply such knowledge to predict behavior, or to judge whether an observed behavior is rational. Such skills are critical for appropriate interaction in social environments. We create a new dataset, SimpleTom, containing concise, diverse stories (e.g., "The can of Pringles has moldy chips in it. Mary picks up the can in the supermarket and walks to the cashier."), each with three questions that test different degrees of ToM reasoning, asking models to predict (a) mental state ("Is Mary aware of the mold?"), (b) behavior ("Will Mary pay for the chips or report the mold?"), and (c) judgment ("Mary paid for the chips. Was that reasonable?"). To our knowledge, SimpleToM is the first dataset to systematically explore downstream reasoning requiring knowledge of mental states in realistic scenarios. Our experimental results are intriguing: While most models can reliably predict mental state on our dataset (a), they often fail to correctly predict the behavior (b), and fare even worse at judging whether given behaviors are reasonable (c), despite being correctly aware of the protagonist's mental state should make such secondary predictions obvious. We further show that we can help models do better at (b) and (c) via interventions such as reminding the model of its earlier mental state answer and mental-state-specific chain-of-thought prompting, raising the action prediction accuracies (e.g., from 49.5% to 93.5% for GPT-4o) and judgment accuracies (e.g., from 15.3% to 94.7% in GPT-4o). While this shows that models can be coaxed to perform well, it requires task-specific interventions, and the natural model performances remain low, a cautionary tale for LLM deployment.
- Abstract(参考訳): 以前の研究では、大きな言語モデル(LLM)が「心の理論」(ToM)を持っているかどうかを探っているが、LLMがそのような知識を暗黙的に振る舞いを予測したり、観察された振る舞いが合理的かどうかを判断する作業はほとんど行われていない。
このようなスキルは、社会的環境における適切な相互作用に不可欠である。
私たちはSimpleTomという、簡潔で多様なストーリーを含む新しいデータセットを作成します(例:Pringlesの缶にはカビチップが入っています。Mary氏はスーパーマーケットの缶を拾い、レジまで歩いていきます)。それぞれに3つの質問があり、それぞれ異なるToM推論の度合いをテストし、モデルに予測を依頼しています。
(a)精神状態(メアリーは型を知っているのか)
(b)行動(メアリーがチップの代金を支払うか、金型を報告するか)、そして
(c)判決(「マリーはチップに支払った。それは妥当だったのか?」)
我々の知る限り、SimpleToMは、現実的なシナリオにおいて精神状態の知識を必要とする下流の推論を体系的に探求する最初のデータセットである。
ほとんどのモデルでは、データセット上で精神状態を確実に予測できますが、
(a)行動の正確な予測に失敗することが多い
(b) 所与の行動が妥当かどうかを判断するとさらに運賃が悪くなる
(c) 主役の精神状態が正確に認識されているにもかかわらず、このような二次的な予測は明らかである。
さらに、モデルの改善を支援することが示されています。
(b)
(c) 初期の精神状態応答のモデルと精神状態特異的連鎖の促進、行動予測精度(例えば、GPT-4oの49.5%から93.5%)の上昇、判断精度(例えば、GPT-4oの15.3%から94.7%)の上昇などの介入を通じて。
このことは、モデルがうまく機能するためにコアックスできることを示しているが、タスク固有の介入が必要であり、自然モデルのパフォーマンスは低いままである。
関連論文リスト
- Looking Inward: Language Models Can Learn About Themselves by Introspection [7.544957585111317]
イントロスペクションは、その人の現在の精神状態へのアクセスを特権的に許可する。
我々は,イントロスペクションを,トレーニングデータに含まれない,あるいは派生していない知識の獲得と定義する。
本研究では,LLMの微調整によるイントロスペクションについて検討し,その挙動を仮説的シナリオで予測する。
論文 参考訳(メタデータ) (2024-10-17T17:24:10Z) - Eliciting Uncertainty in Chain-of-Thought to Mitigate Bias against Forecasting Harmful User Behaviors [29.892041865029803]
会話予測タスクは、展開された会話の結果を予測するモデルである。
ソーシャルメディアのモデレーションに応用すれば、有害なユーザーの行動を予測することができる。
本稿では,潜在的なバイアスを軽減するツールとして,モデルの不確実性がどの程度有効かを検討する。
論文 参考訳(メタデータ) (2024-10-17T15:07:53Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - How FaR Are Large Language Models From Agents with Theory-of-Mind? [69.41586417697732]
大規模言語モデル(LLM)に対する新たな評価パラダイムを提案する。
T4Dは、他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけるモデルを必要とする。
ゼロショットプロンプトフレームワークであるフォアシー・アンド・リフレクション(FaR)を導入し,LCMが今後の課題を予測できるように推論構造を提供する。
論文 参考訳(メタデータ) (2023-10-04T06:47:58Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Language Models (Mostly) Know What They Know [10.836210010868932]
言語モデルが自身の主張の有効性を評価し,どの疑問に正しく答えられるかを予測する。
モデルが「P(IK)」を予測できるかどうか,質問に対する「私が知っている」確率を,特定の回答に言及せずに検討する。
論文 参考訳(メタデータ) (2022-07-11T22:59:39Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。