論文の概要: InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles
- arxiv url: http://arxiv.org/abs/2508.16072v1
- Date: Fri, 22 Aug 2025 04:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.244887
- Title: InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles
- Title(参考訳): InMind: 個人の推論スタイルのキャプチャと適用におけるLCMの評価
- Authors: Zizhen Li, Chuanhao Li, Yibin Wang, Qi Chen, Diping Song, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Kaipeng Zhang,
- Abstract要約: 社会的推論ゲームは、個別の推論スタイルを評価するための自然なテストベッドを提供する。
我々は,LLMがパーソナライズされた推論スタイルをキャプチャして適用できるかどうかを評価するための認知基盤評価フレームワークであるInMindを紹介する。
ケーススタディとして、InMindをゲームAvalonに適用し、11の最先端LCMを評価した。
- 参考スコア(独自算出の注目度): 39.025684190110276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs have shown strong performance on human-centric reasoning tasks. While previous evaluations have explored whether LLMs can infer intentions or detect deception, they often overlook the individualized reasoning styles that influence how people interpret and act in social contexts. Social deduction games (SDGs) provide a natural testbed for evaluating individualized reasoning styles, where different players may adopt diverse but contextually valid reasoning strategies under identical conditions. To address this, we introduce InMind, a cognitively grounded evaluation framework designed to assess whether LLMs can capture and apply personalized reasoning styles in SDGs. InMind enhances structured gameplay data with round-level strategy traces and post-game reflections, collected under both Observer and Participant modes. It supports four cognitively motivated tasks that jointly evaluate both static alignment and dynamic adaptation. As a case study, we apply InMind to the game Avalon, evaluating 11 state-of-the-art LLMs. General-purpose LLMs, even GPT-4o frequently rely on lexical cues, struggling to anchor reflections in temporal gameplay or adapt to evolving strategies. In contrast, reasoning-enhanced LLMs like DeepSeek-R1 exhibit early signs of style-sensitive reasoning. These findings reveal key limitations in current LLMs' capacity for individualized, adaptive reasoning, and position InMind as a step toward cognitively aligned human-AI interaction.
- Abstract(参考訳): LLMは人間中心の推論タスクに強いパフォーマンスを示している。
過去の評価では、LLMが意図を推測するか、あるいは騙しを検知できるかが検討されてきたが、人々は社会的文脈においてどのように解釈し行動するかに影響を及ぼす個別の推論スタイルを見落としていることが多い。
社会的推論ゲーム(SDG)は、個別の推論スタイルを評価するための自然なテストベッドを提供する。
この問題を解決するために,LSMがSDGのパーソナライズされた推論スタイルを捕捉・適用できるかどうかを評価するための認知基盤評価フレームワークであるInMindを導入する。
InMindは、ラウンドレベルの戦略トレースとゲーム後リフレクションを備えた構造化されたゲームプレイデータを強化し、ObserverモードとParticipantモードの両方で収集する。
静的アライメントと動的適応の両方を共同で評価する4つの認知的動機付けタスクをサポートする。
ケーススタディとして、InMindをゲームAvalonに適用し、11の最先端LCMを評価した。
GPT-4o の汎用 LLM は、しばしば語彙の手がかりに頼り、時間的なゲームプレイにおけるリフレクションを固定したり、進化する戦略に適応するのに苦労する。
対照的に、DeepSeek-R1のような推論強化LLMは、スタイルに敏感な推論の初期の兆候を示す。
これらの結果から,認知に整合した人間とAIのインタラクションに向けたステップとして,個人化,適応的推論,位置InMindに対する現在のLLMの能力に重要な制限があることが判明した。
関連論文リスト
- Noise, Adaptation, and Strategy: Assessing LLM Fidelity in Decision-Making [0.030586855806896043]
大規模言語モデル(LLM)は、社会科学シミュレーションでますます使われている。
本研究では,LLMエージェントが外部誘導と人為的ノイズのレベルが異なる条件下でどのように適応するかを検討するためのプロセス指向評価フレームワークを提案する。
LLMは、デフォルトでは、観察された人間の行動から分岐する安定的で保守的な戦略に収束する。
論文 参考訳(メタデータ) (2025-08-21T18:55:53Z) - How LLMs Comprehend Temporal Meaning in Narratives: A Case Study in Cognitive Evaluation of LLMs [13.822169295436177]
本研究では,人文研究に用いられた物語において,大規模言語モデル(LLM)が言語的側面の時間的意味をどう扱うかを検討する。
以上の結果から,LLMは原型性に過度に依存し,相反する側面判断を生じ,側面から派生した因果推論に苦慮することが明らかとなった。
これらの結果は,LLMのプロセスの側面が人間と根本的に異なり,ロバストな物語理解が欠如していることを示唆している。
論文 参考訳(メタデータ) (2025-07-18T18:28:35Z) - Beyond Nash Equilibrium: Bounded Rationality of LLMs and humans in Strategic Decision-making [33.2843381902912]
大規模言語モデルは、戦略的意思決定設定にますます使われている。
行動ゲーム理論研究に適応した実験パラダイムを用いて,LLMと人間を比較した。
論文 参考訳(メタデータ) (2025-06-11T04:43:54Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - Is your LLM trapped in a Mental Set? Investigative study on how mental sets affect the reasoning capabilities of LLMs [8.920202114368843]
本稿では,心的セットがLLMの推論能力に与える影響について検討する。
メンタル・セット(Mental Sets)とは、以前成功していた戦略が非効率になったとしても継続する傾向を指す。
Llama-3.1-8B-インストラクト、Llama-3.1-70B-インストラクト、GPT-4oのようなメンタルセットの存在下でのLLMモデルの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T02:29:15Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。