論文の概要: How FaR Are Large Language Models From Agents with Theory-of-Mind?
- arxiv url: http://arxiv.org/abs/2310.03051v1
- Date: Wed, 4 Oct 2023 06:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 20:49:31.556827
- Title: How FaR Are Large Language Models From Agents with Theory-of-Mind?
- Title(参考訳): 思考理論を持つエージェントから得られる大規模言語モデルは、どの程度のFaRか?
- Authors: Pei Zhou, Aman Madaan, Srividya Pranavi Potharaju, Aditya Gupta, Kevin
R. McKee, Ari Holtzman, Jay Pujara, Xiang Ren, Swaroop Mishra, Aida
Nematzadeh, Shyam Upadhyay, Manaal Faruqui
- Abstract要約: 大規模言語モデル(LLM)に対する新たな評価パラダイムを提案する。
T4Dは、他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけるモデルを必要とする。
ゼロショットプロンプトフレームワークであるフォアシー・アンド・リフレクション(FaR)を導入し,LCMが今後の課題を予測できるように推論構造を提供する。
- 参考スコア(独自算出の注目度): 69.41586417697732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Thinking is for Doing." Humans can infer other people's mental states from
observations--an ability called Theory-of-Mind (ToM)--and subsequently act
pragmatically on those inferences. Existing question answering benchmarks such
as ToMi ask models questions to make inferences about beliefs of characters in
a story, but do not test whether models can then use these inferences to guide
their actions. We propose a new evaluation paradigm for large language models
(LLMs): Thinking for Doing (T4D), which requires models to connect inferences
about others' mental states to actions in social scenarios. Experiments on T4D
demonstrate that LLMs such as GPT-4 and PaLM 2 seemingly excel at tracking
characters' beliefs in stories, but they struggle to translate this capability
into strategic action. Our analysis reveals the core challenge for LLMs lies in
identifying the implicit inferences about mental states without being
explicitly asked about as in ToMi, that lead to choosing the correct action in
T4D. To bridge this gap, we introduce a zero-shot prompting framework, Foresee
and Reflect (FaR), which provides a reasoning structure that encourages LLMs to
anticipate future challenges and reason about potential actions. FaR boosts
GPT-4's performance from 50% to 71% on T4D, outperforming other prompting
methods such as Chain-of-Thought and Self-Ask. Moreover, FaR generalizes to
diverse out-of-distribution story structures and scenarios that also require
ToM inferences to choose an action, consistently outperforming other methods
including few-shot in-context learning.
- Abstract(参考訳): 「考えることはやるべきことだ。」
人間は観察から他者の精神状態を推測することができる(「心の理論」と呼ばれる能力)。
ToMiのような既存の質問応答ベンチマークでは、モデルに質問をして、ストーリーのキャラクターの信念について推論するが、モデルがこれらの推論を使って行動のガイドを行えるかどうかは検証しない。
本稿では,大規模言語モデル (LLM) に対する新たな評価パラダイムを提案する。 思考のための思考 (T4D) は,他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけることを必要とする。
T4Dの実験では、GPT-4やPaLM 2のようなLCMは物語におけるキャラクターの信念を追跡するのに優れているが、この能力を戦略的行動に変換するのに苦労している。
分析の結果,心的状態に関する暗黙的推論をToMiのように明示的に問うことなく,T4Dで正しい行動を選択することがLSMの課題であることが明らかとなった。
このギャップを埋めるために、ゼロショットプロンプトフレームワークであるForesee and Reflect(FaR)を導入します。
FaRはGPT-4の性能をT4Dで50%から71%に向上させ、Chain-of-ThoughtやSelf-Askといった他のプロンプト手法よりも優れている。
さらに、さまざまな分散外のストーリ構造や、tom推論によるアクション選択を必要とするシナリオを一般化し、最小限のコンテキスト内学習を含む他のメソッドを一貫して上回っています。
関連論文リスト
- SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs [72.06808538971487]
大規模言語モデル(LLM)が行動予測に「心の理論」(ToM)を暗黙的に適用できるかどうかを検証する。
ToM推論の異なる程度をテストする3つの質問を含む新しいデータセットSimpleTomを作成します。
私たちの知る限り、SimpleToMは、現実的なシナリオにおけるメンタルステートの知識を必要とする下流の推論を探求する最初のデータセットです。
論文 参考訳(メタデータ) (2024-10-17T15:15:00Z) - TypedThinker: Typed Thinking Improves Large Language Model Reasoning [44.8904486513791]
大規模言語モデルの問題解決能力を高めるフレームワークであるTypedThinkerを提案する。
TypedThinkerは、与えられた問題に対して適切な推論型を選択し、特定の推論型を効果的に実装する、という2つの主要な課題に対処する。
実験の結果、Mistral 7Bは3.4%、LLaMA3 8Bは16.7%の精度でベースラインモデルよりも大幅に改善された。
論文 参考訳(メタデータ) (2024-10-02T18:54:45Z) - An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models [99.31449616860291]
現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学べる。
次の命令では、ターゲットタスクは自然言語で明示的に記述され、少数ショットプロンプトでは、タスクは暗黙的に指定される。
命令推論では、LMはインコンテキストの例を示し、自然言語のタスク記述を生成するように促される。
論文 参考訳(メタデータ) (2024-04-03T19:31:56Z) - What's Next in Affective Modeling? Large Language Models [3.0902630634005797]
GPT-4は複数の感情タスクでうまく機能する。
感情理論を区別し、感情的な物語を思いつくことができる。
我々は、LLMが感情モデリングにおいて重要な役割を果たすことを示唆している。
論文 参考訳(メタデータ) (2023-10-03T16:39:20Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z) - Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。
ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。
実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-17T23:16:17Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。