論文の概要: Sparks of Rationality: Do Reasoning LLMs Align with Human Judgment and Choice?
- arxiv url: http://arxiv.org/abs/2601.22329v1
- Date: Thu, 29 Jan 2026 21:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.072662
- Title: Sparks of Rationality: Do Reasoning LLMs Align with Human Judgment and Choice?
- Title(参考訳): 合理性の火花: LLMと人間の判断と選択は一致しているか?
- Authors: Ala N. Tak, Amin Banayeeanzade, Anahita Bolourani, Fatemeh Bahrani, Ashutosh Chaubey, Sai Praneeth Karimireddy, Norbert Schwarz, Jonathan Gratch,
- Abstract要約: 大規模言語モデルは、雇用、医療、経済判断のための意思決定エンジンとしてますます位置づけられている。
不合理性と偏見の類似パターンを示すかどうかを評価することは重要である。
- 参考スコア(独自算出の注目度): 10.367910587365529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly positioned as decision engines for hiring, healthcare, and economic judgment, yet real-world human judgment reflects a balance between rational deliberation and emotion-driven bias. If LLMs are to participate in high-stakes decisions or serve as models of human behavior, it is critical to assess whether they exhibit analogous patterns of (ir)rationalities and biases. To this end, we evaluate multiple LLM families on (i) benchmarks testing core axioms of rational choice and (ii) classic decision domains from behavioral economics and social norms where emotions are known to shape judgment and choice. Across settings, we show that deliberate "thinking" reliably improves rationality and pushes models toward expected-value maximization. To probe human-like affective distortions and their interaction with reasoning, we use two emotion-steering methods: in-context priming (ICP) and representation-level steering (RLS). ICP induces strong directional shifts that are often extreme and difficult to calibrate, whereas RLS produces more psychologically plausible patterns but with lower reliability. Our results suggest that the same mechanisms that improve rationality also amplify sensitivity to affective interventions, and that different steering methods trade off controllability against human-aligned behavior. Overall, this points to a tension between reasoning and affective steering, with implications for both human simulation and the safe deployment of LLM-based decision systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、雇用、医療、経済判断のための意思決定エンジンとしてますます位置づけられているが、現実の人間の判断は合理的な熟考と感情駆動バイアスのバランスを反映している。
LLMが高い意思決定に参加するか、人間の行動モデルとして機能するかは、(不合理性や偏見の類似したパターンを示すかどうかを評価することが重要である。
この目的のために、複数のLLMファミリーの評価を行った。
(i) 合理的選択のコア公理をテストするベンチマーク
(二)行動経済学や社会規範の古典的な決定領域において、感情が判断と選択を形作ることが知られている。
設定全体では、意図的な「思考」が合理性を確実に改善し、期待値の最大化に向けてモデルをプッシュすることを示す。
In-context priming (ICP) とpresentive-level steering (RLS) の2つの感情ステアリング手法を用いた。
ICPは、しばしば極端に校正が困難である強い方向転換を誘導する一方、RSSはより心理的にもっともらしいパターンを生成するが、信頼性は低い。
以上の結果から,合理性を向上する機構が情緒的介入に対する感受性を増幅すると同時に,異なるステアリング法が人間の協調行動に対する制御性を阻害する可能性が示唆された。
全体として、このことは、人間シミュレーションとLLMベースの意思決定システムの安全な展開の両方に影響を及ぼすような、推論と感情的な操りの緊張関係を示している。
関連論文リスト
- Fast, Slow, and Tool-augmented Thinking for LLMs: A Review [57.16858582049339]
大規模言語モデル (LLM) は、様々な領域における推論において顕著な進歩を示している。
実世界のタスクにおける効果的な推論は、問題の要求に推論戦略を適用する必要がある。
2つの知識境界に沿ったLSM推論戦略の新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-08-17T07:20:32Z) - Beyond Nash Equilibrium: Bounded Rationality of LLMs and humans in Strategic Decision-making [33.2843381902912]
大規模言語モデルは、戦略的意思決定設定にますます使われている。
行動ゲーム理論研究に適応した実験パラダイムを用いて,LLMと人間を比較した。
論文 参考訳(メタデータ) (2025-06-11T04:43:54Z) - Who Gets the Kidney? Human-AI Alignment, Indecision, and Moral Values [36.47201247038004]
本研究では,Large Language Models (LLMs) が,様々な属性の優先順位付けにおいて,人的価値との相違を示すことを示す。
少ないサンプルを用いた低ランク教師あり微調整は、決定整合性の向上と不確定性モデリングの校正に有効であることを示す。
論文 参考訳(メタデータ) (2025-05-30T01:23:11Z) - Comparing Exploration-Exploitation Strategies of LLMs and Humans: Insights from Standard Multi-armed Bandit Experiments [5.1382713576243955]
大規模言語モデル(LLM)は、シーケンシャルな意思決定設定で人間の振る舞いをシミュレートしたり、自動化したりするために、ますます使われている。
我々は、不確実性の下での動的意思決定の基本的な側面である、探査・探索(E&E)トレードオフに焦点を当てる。
LLMにおける思考を可能にすることは、ランダムな探索と指向的な探索の混合によって特徴付けられる、より人間的な行動へと行動を変える。
論文 参考訳(メタデータ) (2025-05-15T02:09:18Z) - Self-Adaptive Cognitive Debiasing for Large Language Models in Decision-Making [71.71796367760112]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
オープンウェイトとクローズドウェイトの両方を用いた金融・医療・法的意思決定タスクにおけるSACDの評価を行った。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。
現在のLSMは、人間に対する信頼の欠如を示す。
本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T06:22:19Z) - Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context [5.361970694197912]
本稿では,大規模言語モデル(LLM)の意思決定行動を評価するための行動経済学に基づく枠組みを提案する。
本稿では,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMにおけるリスク嗜好,確率重み付け,損失回避の程度を推定する。
以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。
論文 参考訳(メタデータ) (2024-06-10T02:14:19Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。