論文の概要: Let's Put Ourselves in Sally's Shoes: Shoes-of-Others Prefixing Improves Theory of Mind in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.05970v1
- Date: Fri, 06 Jun 2025 10:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.43492
- Title: Let's Put Ourselves in Sally's Shoes: Shoes-of-Others Prefixing Improves Theory of Mind in Large Language Models
- Title(参考訳): Sally's Shoes:Shoes-of-thers Prefixingは大規模言語モデルにおける心の理論を改善する
- Authors: Kazutoshi Shinoda, Nobukatsu Hojo, Kyosuke Nishida, Yoshihiro Yamazaki, Keita Suzuki, Hiroaki Sugiyama, Kuniko Saito,
- Abstract要約: 大規模言語モデル(LLM)における心の理論(ToM)はまだ人間レベルの性能に達していない。
ToMの既存の推論時間法は、世界状態の変化を含む文脈から信念を推測するために特化している。
Inference-time method for ToM, Shoes-of-Others (SoO) prefixing, which makes less assumptions about contexts and is apply to wide scenarios。
- 参考スコア(独自算出の注目度): 16.063064680522743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have shown that Theory of Mind (ToM) in large language models (LLMs) has not reached human-level performance yet. Since fine-tuning LLMs on ToM datasets often degrades their generalization, several inference-time methods have been proposed to enhance ToM in LLMs. However, existing inference-time methods for ToM are specialized for inferring beliefs from contexts involving changes in the world state. In this study, we present a new inference-time method for ToM, Shoes-of-Others (SoO) prefixing, which makes fewer assumptions about contexts and is applicable to broader scenarios. SoO prefixing simply specifies the beginning of LLM outputs with ``Let's put ourselves in A's shoes.'', where A denotes the target character's name. We evaluate SoO prefixing on two benchmarks that assess ToM in conversational and narrative contexts without changes in the world state and find that it consistently improves ToM across five categories of mental states. Our analysis suggests that SoO prefixing elicits faithful thoughts, thereby improving the ToM performance.
- Abstract(参考訳): 近年の研究では、大規模言語モデル(LLM)における心の理論(ToM)が人間レベルの性能に達していないことが示されている。
ToMデータセット上の微調整LDMは一般化を劣化させることが多いため、LLMにおけるToMを強化するためにいくつかの推論時間法が提案されている。
しかし、ToMの既存の推論時間法は、世界状態の変化を含む文脈から信念を推測するために特化している。
本研究では,ToM,Shoes-of-Others(SoO)プレフィックスに対する新しい推論時間法を提案する。
SoO プレフィックスは単に LLM 出力の開始を "`Let's put in A's shoes" で指定するだけです。
ここでAはターゲット文字の名前を表す。
SoOプレフィックスは,世界状態の変化を伴わずに会話や物語の文脈でToMを評価する2つのベンチマークで評価し,精神状態の5つのカテゴリで一貫してToMを改善することを発見した。
分析の結果,SoOプレフィックスでは忠実な思考が引き起こされ,ToM性能が向上することが示唆された。
関連論文リスト
- Memorization or Reasoning? Exploring the Idiom Understanding of LLMs [6.046971695786252]
MIDASは6つの言語におけるイディオムの大規模なデータセットであり、それぞれが対応する意味と組み合わせられている。
以上の結果から,LLMは暗記だけでなく,文脈的手がかりと推論を統合したハイブリッドアプローチも採用していることが示唆された。
このことは、LLMにおける慣用的理解が、内部知識検索と推論に基づく推論の相互作用から生まれることを意味する。
論文 参考訳(メタデータ) (2025-05-22T04:31:25Z) - The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters [67.61587661660852]
理論・オブ・ミンド(ToM)は、人間が他者の精神状態を理解し解釈することを可能にする。
本稿では,ToMにおける個人的背景に関する包括的文脈理解の重要性を検証する。
本稿では,古典小説の登場人物をベースとした1,035ToM質問からなるCharToMベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-01-03T09:04:45Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - Views Are My Own, but Also Yours: Benchmarking Theory of Mind Using Common Ground [6.868969074841911]
自然発生音声対話に基づく最初のToMデータセットであるCommon-ToMを導入し,LMがToMの実証に苦慮していることを示す。
次に,信念の単純で明示的な表現を統合することで,Common-ToM上でのLM性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-04T20:07:17Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - Theory of Mind in Large Language Models: Examining Performance of 11
State-of-the-Art models vs. Children Aged 7-10 on Advanced Tests [1.099532646524593]
我々は、心の理論(ToM)に関連する能力に基づいて、11のベースおよび命令調整型大言語モデル(LLM)をテストする。
また, GPT ファミリーの命令調整 LLM は, 他のモデルよりも優れており,子供もよく見られる。
我々は,言語とToMの相互接続進化と開発が,命令チューニングがもたらす意味を説明するのに役立つことを示唆している。
論文 参考訳(メタデータ) (2023-10-31T09:55:07Z) - HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning
in Large Language Models [31.831042765744204]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。
本稿では,高次マインド理論のベンチマークであるHI-TOMを紹介する。
各種Large Language Models (LLM) を用いた実験により,高次ToMタスクの性能低下が示唆された。
論文 参考訳(メタデータ) (2023-10-25T16:41:15Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。