論文の概要: Do LLMs Act Like Rational Agents? Measuring Belief Coherence in Probabilistic Decision Making
- arxiv url: http://arxiv.org/abs/2602.06286v1
- Date: Fri, 06 Feb 2026 00:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.173016
- Title: Do LLMs Act Like Rational Agents? Measuring Belief Coherence in Probabilistic Decision Making
- Title(参考訳): LLMは合理的エージェントのように作用するか?確率的意思決定における信頼のコヒーレンスを測定する
- Authors: Khurram Yamin, Jingjing Tang, Santiago Cortes-Gomez, Amit Sharma, Eric Horvitz, Bryan Wilder,
- Abstract要約: 大規模言語モデル (LLM) がコヒーレントな信念と安定な嗜好を持つ有理的実用性最大化要因であるかどうかを考察する。
我々のアプローチは、報告された確率がいかなる有理エージェントの真の信念と一致しないような偽りの条件を提供する。
- 参考スコア(独自算出の注目度): 28.256934953904317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as agents in high-stakes domains where optimal actions depend on both uncertainty about the world and consideration of utilities of different outcomes, yet their decision logic remains difficult to interpret. We study whether LLMs are rational utility maximizers with coherent beliefs and stable preferences. We consider behaviors of models for diagnosis challenge problems. The results provide insights about the relationship of LLM inferences to ideal Bayesian utility maximization for elicited probabilities and observed actions. Our approach provides falsifiable conditions under which the reported probabilities \emph{cannot} correspond to the true beliefs of any rational agent. We apply this methodology to multiple medical diagnostic domains with evaluations across several LLMs. We discuss implications of the results and directions forward for uses of LLMs in guiding high-stakes decisions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、世界に対する不確実性と異なる結果の実用性の両方に最適な行動が依存するハイテイクドメインのエージェントとして、ますます多くデプロイされているが、それらの決定ロジックは解釈が難しいままである。
LLMがコヒーレントな信念と安定な嗜好を持つ有理効用最大化器であるかどうかを考察する。
診断問題に対するモデルの挙動を考察する。
その結果, LLM推論とベイズ効用最大化の関係について考察し, 導出確率と観測行動について考察した。
我々のアプローチは、報告された確率 \emph{cannot} が任意の有理エージェントの真の信念に対応するような、偽約可能な条件を提供する。
本手法を複数のLSMで評価した複数の診断領域に適用する。
本稿では,LCMを用いたハイテイク意思決定の導出における結果と方向性の意義について論じる。
関連論文リスト
- AIM-Bench: Evaluating Decision-making Biases of Agentic LLM as Inventory Manager [9.21215885702746]
AIM-Benchは、不確実なサプライチェーン管理シナリオにおいて、大規模言語モデル(LLM)の意思決定行動を評価するために設計された新しいベンチマークである。
以上の結果から, LLMは人体とよく似た, 決定バイアスの度合いが異なることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-15T11:38:19Z) - LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities [21.42711537107199]
我々は,Large Language Models (LLMs) が意思決定シナリオにおいてサブ最適に機能する理由を考察する。
自己生成型CoT論理の強化学習(Reinforcement Learning, RL)による微調整によるこれらの欠点の緩和を提案する。
論文 参考訳(メタデータ) (2025-04-22T17:57:14Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。
本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。
一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。