論文の概要: Getting out of the Big-Muddy: Escalation of Commitment in LLMs
- arxiv url: http://arxiv.org/abs/2508.01545v2
- Date: Thu, 07 Aug 2025 15:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 14:01:14.006218
- Title: Getting out of the Big-Muddy: Escalation of Commitment in LLMs
- Title(参考訳): ビッグマディから抜け出す: LLMにおけるコミットメントのエスカレーション
- Authors: Emilio Barkett, Olivia Long, Paul Kröger,
- Abstract要約: 大規模言語モデル(LLM)は、自律的な意思決定の役割にますます取り組まれている。
LLMは、コミットメントのエスカレーションを含む人間の判断を体系的に歪める認知バイアスを継承することができる。
本稿では,これらのバイアスがLLMに一貫して現れるか,あるいは特定のトリガー条件を必要とするかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in autonomous decision-making roles across high-stakes domains. However, since models are trained on human-generated data, they may inherit cognitive biases that systematically distort human judgment, including escalation of commitment, where decision-makers continue investing in failing courses of action due to prior investment. Understanding when LLMs exhibit such biases presents a unique challenge. While these biases are well-documented in humans, it remains unclear whether they manifest consistently in LLMs or require specific triggering conditions. This paper investigates this question using a two-stage investment task across four experimental conditions: model as investor, model as advisor, multi-agent deliberation, and compound pressure scenario. Across N = 6,500 trials, we find that bias manifestation in LLMs is highly context-dependent. In individual decision-making contexts (Studies 1-2, N = 4,000), LLMs demonstrate strong rational cost-benefit logic with minimal escalation of commitment. However, multi-agent deliberation reveals a striking hierarchy effect (Study 3, N = 500): while asymmetrical hierarchies show moderate escalation rates (46.2%), symmetrical peer-based decision-making produces near-universal escalation (99.2%). Similarly, when subjected to compound organizational and personal pressures (Study 4, N = 2,000), models exhibit high degrees of escalation of commitment (68.95% average allocation to failing divisions). These findings reveal that LLM bias manifestation depends critically on social and organizational context rather than being inherent, with significant implications for the deployment of multi-agent systems and unsupervised operations where such conditions may emerge naturally.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ハイテイクドメイン全体にわたって、自律的な意思決定ロールにますますデプロイされている。
しかし、モデルは人為的なデータに基づいて訓練されているため、人間の判断を体系的に歪める認知バイアスを継承する可能性がある。
LLMがそのようなバイアスを示すときの理解は、ユニークな課題である。
これらのバイアスはヒトによく文書化されているが、LLMに一貫して現れるか、特定のトリガー条件を必要とするかは不明である。
本稿では,モデル・アズ・インベスター,モデル・ア・アドバイザ,マルチエージェント検討,複合圧力シナリオという,4つの実験条件にまたがる2段階投資課題を用いて,この問題を考察する。
N = 6,500 の試験で LLM の偏差は文脈に依存していることがわかった。
個別の意思決定コンテキスト(1-2, N = 4,000)では、LLMは最小限のコミットメントのエスカレーションを伴って、強い合理的なコスト便益論理を示す。
対称的な階層は適度なエスカレーション率 (46.2%) を示す一方、対称的なピアベースの意思決定は準ユニバーサルエスカレーション (99.2%) をもたらす。
同様に、複合的な組織や個人的圧力を受ける場合(研究4、N = 2,000)、モデルはコミットメントのエスカレーションの度合いが高い(失敗する部門に対する平均アロケーションの68.95%)。
これらの結果から, LLMバイアスの出現は, 自然に発生する可能性のあるマルチエージェントシステムや非教師なし操作の展開に重要な意味を持ち, 社会的・組織的文脈に大きく依存していることが判明した。
関連論文リスト
- FairReason: Balancing Reasoning and Social Bias in MLLMs [50.618158642714505]
MLLM(Multimodal Large Language Models)は、様々なタスクやモダリティにおいて、最先端の成果をすでに達成している。
近年の研究では、推論能力をさらに推し進めるために、先進的なプロンプトスキームと後続の微調整を探求している。
論文 参考訳(メタデータ) (2025-07-30T19:57:22Z) - Your AI, Not Your View: The Bias of LLMs in Investment Analysis [55.328782443604986]
大規模言語モデル(LLM)は、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違により、しばしば知識の衝突に直面している。
本稿では, LLMに基づく投資分析において, 確認バイアスの定量的分析を行った。
われわれは、大口株に対する一貫した選好と、ほとんどのモデルにおけるコントラリアン戦略を観察する。
論文 参考訳(メタデータ) (2025-07-28T16:09:38Z) - Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。
我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。
意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文 参考訳(メタデータ) (2025-06-29T15:02:47Z) - CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives [3.7731230532888036]
CLASH (Character perspective-based LLM Assessments in situations with High-Stakes) は、345のハイインパクトジレンマと3,795の個人視点からなるデータセットである。
GPT-4oやClaude-Sonnetのような最強のモデルでさえ、決定が曖昧であるべき状況を特定する上で、50%未満の精度を達成する。
論文 参考訳(メタデータ) (2025-04-15T02:54:16Z) - Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。
本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文 参考訳(メタデータ) (2025-02-01T04:24:47Z) - Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions [25.809599403713506]
大規模言語モデル(LLM)は、社会をシミュレートし、多様な社会的タスクを実行するために、多くの研究で採用されている。
LLMは、人為的なデータに曝されるため、社会的偏見に影響を受けやすい。
本研究では,多エージェントLDM相互作用における性バイアスの存在について検討し,これらのバイアスを軽減するための2つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-03T15:28:05Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context [5.361970694197912]
本稿では,大規模言語モデル(LLM)の意思決定行動を評価するための行動経済学に基づく枠組みを提案する。
本稿では,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMにおけるリスク嗜好,確率重み付け,損失回避の程度を推定する。
以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。
論文 参考訳(メタデータ) (2024-06-10T02:14:19Z) - The Impossibility of Fair LLMs [17.812295963158714]
さまざまな技術的公正フレームワークを分析し、公正な言語モデルの開発を難易度の高いものにするために、それぞれに固有の課題を見つけます。
それぞれのフレームワークが汎用的なAIコンテキストに拡張されないか、実際には実現不可能であることを示す。
これらの固有の課題は、LLMを含む汎用AIにおいて、限られた参加入力や限られた測定方法といった経験的な課題が克服されたとしても、持続する。
論文 参考訳(メタデータ) (2024-05-28T04:36:15Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。