論文の概要: Emergent Bayesian Behaviour and Optimal Cue Combination in LLMs
- arxiv url: http://arxiv.org/abs/2512.02719v1
- Date: Tue, 02 Dec 2025 12:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.875629
- Title: Emergent Bayesian Behaviour and Optimal Cue Combination in LLMs
- Title(参考訳): LLMの創発的ベイズ挙動と最適キュー結合
- Authors: Julian Ma, Jun Wang, Zafeirios Fountas,
- Abstract要約: 大規模言語モデル (LLM) は明示的な推論において優れているが、その暗黙的な計算戦略はいまだ探索されていない。
LLMが類似した動作を示し、明示的なトレーニングや指導なしに最適なマルチモーダル統合を行うかどうかを問う。
動作ベンチマーク - BayesBench: 4等級推定タスクをテキストと画像上で導入する。
マルチモーダルキュー合成における性能, 挙動, 効率を計測する。
- 参考スコア(独自算出の注目度): 6.415869990358189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at explicit reasoning, but their implicit computational strategies remain underexplored. Decades of psychophysics research show that humans intuitively process and integrate noisy signals using near-optimal Bayesian strategies in perceptual tasks. We ask whether LLMs exhibit similar behaviour and perform optimal multimodal integration without explicit training or instruction. Adopting the psychophysics paradigm, we infer computational principles of LLMs from systematic behavioural studies. We introduce a behavioural benchmark - BayesBench: four magnitude estimation tasks (length, location, distance, and duration) over text and image, inspired by classic psychophysics, and evaluate a diverse set of nine LLMs alongside human judgments for calibration. Through controlled ablations of noise, context, and instruction prompts, we measure performance, behaviour and efficiency in multimodal cue-combination. Beyond accuracy and efficiency metrics, we introduce a Bayesian Consistency Score that detects Bayes-consistent behavioural shifts even when accuracy saturates. Our results show that while capable models often adapt in Bayes-consistent ways, accuracy does not guarantee robustness. Notably, GPT-5 Mini achieves perfect text accuracy but fails to integrate visual cues efficiently. This reveals a critical dissociation between capability and strategy, suggesting accuracy-centric benchmarks may over-index on performance while missing brittle uncertainty handling. These findings reveal emergent principled handling of uncertainty and highlight the correlation between accuracy and Bayesian tendencies. We release our psychophysics benchmark and consistency metric (https://bayes-bench.github.io) as evaluation tools and to inform future multimodal architecture designs.
- Abstract(参考訳): 大規模言語モデル (LLM) は明示的な推論において優れているが、その暗黙的な計算戦略はいまだ探索されていない。
心理物理学の研究は、人間が直感的に処理し、知覚タスクにおいて最適に近いベイズ戦略を用いてノイズ信号を統合することを示している。
LLMが類似した動作を示し、明示的なトレーニングや指導なしに最適なマルチモーダル統合を行うかどうかを問う。
心理物理学のパラダイムを応用し、系統的な行動研究からLCMの計算原理を推定する。
行動ベンチマーク - BayesBench: テキストと画像上の4大推定タスク(長さ、位置、距離、持続時間)を古典心理学に触発され、校正のための人間の判断とともに、9つのLCMの多様なセットを評価する。
ノイズ,コンテキスト,命令プロンプトの制御により,マルチモーダルキュー合成の性能,動作,効率を計測する。
精度と効率の指標の他に、ベイズ一貫性スコアを導入し、精度が飽和してもベイズ一貫性の挙動変化を検出する。
以上の結果から,有能なモデルはしばしばベイズ一貫性のある方法で適応するが,精度はロバスト性を保証するものではないことが示唆された。
特に、GPT-5 Miniは完璧なテキスト精度を実現するが、視覚的手がかりを効率的に統合することができない。
これは、能力と戦略の間の重要な解離を明らかにし、精度中心のベンチマークが不安定な不確実性処理を欠いている間にパフォーマンスを過大評価する可能性があることを示唆している。
これらの結果から,不確実性の創発的取り扱いが明らかとなり,ベイズ傾向と精度の相関が明らかとなった。
評価ツールとして精神物理学のベンチマークと整合性指標(https://bayes-bench.github.io)を公開し、将来のマルチモーダルアーキテクチャ設計について報告する。
関連論文リスト
- Bayesian E(3)-Equivariant Interatomic Potential with Iterative Restratification of Many-body Message Passing [11.101638985590002]
現在の株式は不確実性に悩まされており、活発な学習、校正、配布外検知の信頼性を制限している。
我々は,多体メッセージパッシングの反復再帰化を伴うベイズE(3)変種を開発することで,これらの課題に対処する。
本手法では, エネルギー・原子間力の両面における不確実性を明確に証明する, NLL$_textJEF$の損失関数を導入する。
NLL$_textJEF$は、エネルギーと力の定量化による効率的な能動学習を促進することを実証する。
論文 参考訳(メタデータ) (2025-10-03T14:28:10Z) - Personality as a Probe for LLM Evaluation: Method Trade-offs and Downstream Effects [0.6087817758152709]
本稿では,ビッグファイブ特性を用いたパーソナリティコントロールの体系的研究について述べる。
トラトレベルの分析では、オープン性はICLに最も耐性のある、独特な挑戦であり、同意性を示している。
Gemma-2-2B-ITとLLaMA-3-8B-Instructの実験により明らかなトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-09-05T04:19:15Z) - Post-hoc Probabilistic Vision-Language Models [54.05237186168399]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Exploring the Performance of Continuous-Time Dynamic Link Prediction Algorithms [14.82820088479196]
ダイナミックリンク予測(DLP)は、進化するネットワークにおける将来のリンクの予測に対処する。
本研究では,このような総合的な評価を行うためのツールをコントリビュートする。
評価時に使用可能な陰性サンプリング手法の網羅的な分類法について述べる。
論文 参考訳(メタデータ) (2024-05-27T14:03:28Z) - Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders [9.401989343015364]
連続的に外生的でない共同設立者が存在する場合、ロバストな政策評価と政策最適化について検討する。
本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
論文 参考訳(メタデータ) (2023-02-01T18:40:53Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。