論文の概要: Evaluating Theory of (an uncertain) Mind: Predicting the Uncertain Beliefs of Others in Conversation Forecasting
- arxiv url: http://arxiv.org/abs/2409.14986v1
- Date: Mon, 23 Sep 2024 13:05:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 15:05:21.917715
- Title: Evaluating Theory of (an uncertain) Mind: Predicting the Uncertain Beliefs of Others in Conversation Forecasting
- Title(参考訳): 心の(不確実性)評価理論:会話予測における他者の不確実な信念の予測
- Authors: Anthony Sicilia, Malihe Alikhani,
- Abstract要約: 対話における他者の不確実性をモデル化するために,新たなタスクスイート,挑戦言語モデル(LM)を提案する。
我々は、インターロケータ自体を予測者とみなし、インターロケータの不確実性を予測するようLMに求めている。
LMは、他者の不確実性に最大7%のばらつきを説明できるが、タスクの難しさと将来の仕事の余地を強調している。
- 参考スコア(独自算出の注目度): 29.892041865029803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typically, when evaluating Theory of Mind, we consider the beliefs of others to be binary: held or not held. But what if someone is unsure about their own beliefs? How can we quantify this uncertainty? We propose a new suite of tasks, challenging language models (LMs) to model the uncertainty of others in dialogue. We design these tasks around conversation forecasting, wherein an agent forecasts an unobserved outcome to a conversation. Uniquely, we view interlocutors themselves as forecasters, asking an LM to predict the uncertainty of the interlocutors (a probability). We experiment with re-scaling methods, variance reduction strategies, and demographic context, for this regression task, conducting experiments on three dialogue corpora (social, negotiation, task-oriented) with eight LMs. While LMs can explain up to 7% variance in the uncertainty of others, we highlight the difficulty of the tasks and room for future work, especially in practical applications, like anticipating ``false
- Abstract(参考訳): 典型的には、心の理論を評価する際、他者の信念は二元論であるとみなす。
しかし、もし誰かが自分の信念を知らないとしたら?
この不確実性をどのように定量化できますか。
対話における他者の不確実性をモデル化するために,新たなタスクスイート,挑戦言語モデル(LM)を提案する。
我々は,会話予測のタスクを設計し,エージェントが会話に対して観測されていない結果を予測する。
我々は、インターロケータ自体を予測者とみなし、LMにインターロケータの不確実性(確率)を予測するよう求める。
本研究では,8つのLMを用いた3つの対話コーパス(社会的,交渉的,タスク指向)の実験を行った。
LMは、他者の不確実性に最大7%のばらつきを説明できるが、特に『false』の予測のような実践的応用において、今後の作業におけるタスクと余地の難しさを強調している。
関連論文リスト
- SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs [72.06808538971487]
大規模言語モデル(LLM)が行動予測に「心の理論」(ToM)を暗黙的に適用できるかどうかを検証する。
ToM推論の異なる程度をテストする3つの質問を含む新しいデータセットSimpleTomを作成します。
私たちの知る限り、SimpleToMは、現実的なシナリオにおけるメンタルステートの知識を必要とする下流の推論を探求する最初のデータセットです。
論文 参考訳(メタデータ) (2024-10-17T15:15:00Z) - Eliciting Uncertainty in Chain-of-Thought to Mitigate Bias against Forecasting Harmful User Behaviors [29.892041865029803]
会話予測タスクは、展開された会話の結果を予測するモデルである。
ソーシャルメディアのモデレーションに応用すれば、有害なユーザーの行動を予測することができる。
本稿では,潜在的なバイアスを軽減するツールとして,モデルの不確実性がどの程度有効かを検討する。
論文 参考訳(メタデータ) (2024-10-17T15:07:53Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers [13.644277507363036]
我々は,これらの能力が調整プロンプトとMCQの外部で測定可能かどうかを検討する。
以上の結果から, LLMの回答は, Stated Answer と大きく異なることが示唆された。
テキスト補完はLLMの中核にあるため,これらの結果は共通評価手法が部分画像のみを提供する可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-06-21T08:56:35Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Deal, or no deal (or who knows)? Forecasting Uncertainty in
Conversations using Large Language Models [45.41542983671774]
言語モデルは、会話に固有の不確実性を表現するにはどうすればよいか?
本稿では,長期にわたる「会話予測」タスクの拡張であるFortUne Dialを提案する。
言語モデルが結果の不確実性を表わす2つの方法を研究する。
論文 参考訳(メタデータ) (2024-02-05T18:39:47Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation [62.44907105496227]
MindDialは、Mind-of-mindモデリングで位置決め自由形式の応答を生成できる、新しい対話型フレームワークである。
本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。
筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。
論文 参考訳(メタデータ) (2023-06-27T07:24:32Z) - Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。
そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。
このタスクにより、PLMは語彙意味情報を学習することができる。
論文 参考訳(メタデータ) (2022-05-08T08:37:36Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Getting a CLUE: A Method for Explaining Uncertainty Estimates [30.367995696223726]
微分可能確率モデルからの不確実性推定を解釈する新しい手法を提案する。
提案手法は,データ多様体上に保持しながら,入力の変更方法を示す。
論文 参考訳(メタデータ) (2020-06-11T21:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。