Fugu-MT 論文翻訳(概要): How FaR Are Large Language Models From Agents with Theory-of-Mind?

論文の概要: How FaR Are Large Language Models From Agents with Theory-of-Mind?

arxiv url: http://arxiv.org/abs/2310.03051v1
Date: Wed, 4 Oct 2023 06:47:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 20:49:31.556827
Title: How FaR Are Large Language Models From Agents with Theory-of-Mind?
Title（参考訳）: 思考理論を持つエージェントから得られる大規模言語モデルは、どの程度のFaRか?
Authors: Pei Zhou, Aman Madaan, Srividya Pranavi Potharaju, Aditya Gupta, Kevin R. McKee, Ari Holtzman, Jay Pujara, Xiang Ren, Swaroop Mishra, Aida Nematzadeh, Shyam Upadhyay, Manaal Faruqui
Abstract要約: 大規模言語モデル(LLM)に対する新たな評価パラダイムを提案する。 T4Dは、他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけるモデルを必要とする。ゼロショットプロンプトフレームワークであるフォアシー・アンド・リフレクション(FaR)を導入し,LCMが今後の課題を予測できるように推論構造を提供する。
参考スコア（独自算出の注目度）: 69.41586417697732
License: http://creativecommons.org/licenses/by/4.0/
Abstract: "Thinking is for Doing." Humans can infer other people's mental states from observations--an ability called Theory-of-Mind (ToM)--and subsequently act pragmatically on those inferences. Existing question answering benchmarks such as ToMi ask models questions to make inferences about beliefs of characters in a story, but do not test whether models can then use these inferences to guide their actions. We propose a new evaluation paradigm for large language models (LLMs): Thinking for Doing (T4D), which requires models to connect inferences about others' mental states to actions in social scenarios. Experiments on T4D demonstrate that LLMs such as GPT-4 and PaLM 2 seemingly excel at tracking characters' beliefs in stories, but they struggle to translate this capability into strategic action. Our analysis reveals the core challenge for LLMs lies in identifying the implicit inferences about mental states without being explicitly asked about as in ToMi, that lead to choosing the correct action in T4D. To bridge this gap, we introduce a zero-shot prompting framework, Foresee and Reflect (FaR), which provides a reasoning structure that encourages LLMs to anticipate future challenges and reason about potential actions. FaR boosts GPT-4's performance from 50% to 71% on T4D, outperforming other prompting methods such as Chain-of-Thought and Self-Ask. Moreover, FaR generalizes to diverse out-of-distribution story structures and scenarios that also require ToM inferences to choose an action, consistently outperforming other methods including few-shot in-context learning.
Abstract（参考訳）: 「考えることはやるべきことだ。」人間は観察から他者の精神状態を推測することができる(「心の理論」と呼ばれる能力)。 ToMiのような既存の質問応答ベンチマークでは、モデルに質問をして、ストーリーのキャラクターの信念について推論するが、モデルがこれらの推論を使って行動のガイドを行えるかどうかは検証しない。本稿では,大規模言語モデル (LLM) に対する新たな評価パラダイムを提案する。思考のための思考 (T4D) は,他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけることを必要とする。 T4Dの実験では、GPT-4やPaLM 2のようなLCMは物語におけるキャラクターの信念を追跡するのに優れているが、この能力を戦略的行動に変換するのに苦労している。分析の結果,心的状態に関する暗黙的推論をToMiのように明示的に問うことなく,T4Dで正しい行動を選択することがLSMの課題であることが明らかとなった。このギャップを埋めるために、ゼロショットプロンプトフレームワークであるForesee and Reflect(FaR)を導入します。 FaRはGPT-4の性能をT4Dで50%から71%に向上させ、Chain-of-ThoughtやSelf-Askといった他のプロンプト手法よりも優れている。さらに、さまざまな分散外のストーリ構造や、tom推論によるアクション選択を必要とするシナリオを一般化し、最小限のコンテキスト内学習を含む他のメソッドを一貫して上回っています。

関連論文リスト

If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
How Well Can Vison-Language Models Understand Humans' Intention? An Open-ended Theory of Mind Question Evaluation Benchmark [0.8820880683910832]
視覚言語モデル(VLM)は、視覚質問応答(VQA)タスクにおいて強力な推論能力を示している。しかし、人間の意図、信念、精神状態などを推測するなど、心の理論(ToM)を遂行する能力は未熟である。 ToMタスクの様々なカテゴリにまたがってVLMの性能を評価するためのオープンな質問フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-28T02:26:32Z)
Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T10:39:58Z)
ToMATO: Verbalizing the Mental States of Role-Playing LLMs for Benchmarking Theory of Mind [25.524355451378593]
ToMATOは、会話よりもマルチチョイスQAとして定式化された新しいToMベンチマークである。私たちは、信念、意図、欲望、感情、知識の5つのカテゴリにまたがって、一階と二階の精神状態を取ります。 ToMATOは5.4kの質問、753の会話、15の性格特性パターンで構成されている。
論文参考訳（メタデータ） (2025-01-15T14:47:02Z)
SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs [72.06808538971487]
大規模言語モデル(LLM)が行動予測に「心の理論」(ToM)を暗黙的に適用できるかどうかを検証する。 ToM推論の異なる程度をテストする3つの質問を含む新しいデータセットSimpleTomを作成します。私たちの知る限り、SimpleToMは、現実的なシナリオにおけるメンタルステートの知識を必要とする下流の推論を探求する最初のデータセットです。
論文参考訳（メタデータ） (2024-10-17T15:15:00Z)
TypedThinker: Typed Thinking Improves Large Language Model Reasoning [44.8904486513791]
大規模言語モデルの問題解決能力を高めるフレームワークであるTypedThinkerを提案する。 TypedThinkerは、与えられた問題に対して適切な推論型を選択し、特定の推論型を効果的に実装する、という2つの主要な課題に対処する。実験の結果、Mistral 7Bは3.4%、LLaMA3 8Bは16.7%の精度でベースラインモデルよりも大幅に改善された。
論文参考訳（メタデータ） (2024-10-02T18:54:45Z)
An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models [99.31449616860291]
現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学べる。次の命令では、ターゲットタスクは自然言語で明示的に記述され、少数ショットプロンプトでは、タスクは暗黙的に指定される。命令推論では、LMはインコンテキストの例を示し、自然言語のタスク記述を生成するように促される。
論文参考訳（メタデータ） (2024-04-03T19:31:56Z)
What's Next in Affective Modeling? Large Language Models [3.0902630634005797]
GPT-4は複数の感情タスクでうまく機能する。感情理論を区別し、感情的な物語を思いつくことができる。我々は、LLMが感情モデリングにおいて重要な役割を果たすことを示唆している。
論文参考訳（メタデータ） (2023-10-03T16:39:20Z)
Probing the Multi-turn Planning Capabilities of LLMs via 20 Question Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文参考訳（メタデータ） (2023-10-02T16:55:37Z)
Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文参考訳（メタデータ） (2023-05-24T06:14:31Z)
Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。 ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2023-05-17T23:16:17Z)
Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文参考訳（メタデータ） (2023-04-05T03:49:06Z)
The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。 2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文参考訳（メタデータ） (2022-10-26T19:04:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。