論文の概要: Self-Anchoring Calibration Drift in Large Language Models: How Multi-Turn Conversations Reshape Model Confidence
- arxiv url: http://arxiv.org/abs/2603.01239v1
- Date: Sun, 01 Mar 2026 19:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.583398
- Title: Self-Anchoring Calibration Drift in Large Language Models: How Multi-Turn Conversations Reshape Model Confidence
- Title(参考訳): 大規模言語モデルにおける自己記述キャリブレーションドリフト : マルチターン会話がモデル信頼をいかに形作るか
- Authors: Harshavardhan,
- Abstract要約: 自己調整条件ドリフト (SACD) は、大規模言語モデルにおいて、マルチターン会話をまたいだ事前出力を反復的に構築する際に、表現された自信の体系的な変化を示すという仮説的な傾向である。
我々は, 1ターンベースライン(A), マルチターンセルフアンチョリング(B), 独立反復制御(C)の3条件を用いて, 事実領域, 技術領域, オープンエンド領域にまたがる150の質問に対して, Claude Sonnet 4.6, Gemini 3.1 Pro, GPT-5.2を比較した。
その結果、事前登録された仮説から部分的に分岐する複雑なモデル不均一パターンが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Self-Anchoring Calibration Drift (SACD), a hypothesized tendency for large language models (LLMs) to show systematic changes in expressed confidence when building iteratively on their own prior outputs across multi-turn conversations. We report an empirical study comparing three frontier models -- Claude Sonnet 4.6, Gemini 3.1 Pro, and GPT-5.2 -- across 150 questions spanning factual, technical, and open-ended domains, using three conditions: single-turn baseline (A), multi-turn self-anchoring (B), and independent repetition control (C). Results reveal a complex, model-heterogeneous pattern that partially diverges from pre-registered hypotheses. Claude Sonnet 4.6 exhibited significant decreasing confidence under self-anchoring (mean CDS = -0.032, t(14) = -2.43, p = .029, d = -0.627), while also showing significant calibration error drift (F(4,56) = 22.77, p < .001, eta^2 = .791). GPT-5.2 showed the opposite pattern in open-ended domains (mean CDS = +0.026) with significant ECE escalation by Turn 5. Gemini 3.1 Pro showed no significant CDS (t(14) = 0.38, p = .710), but its Condition C data reveals a striking ECE pattern: without self-anchoring, Gemini's calibration error drops from .327 to near zero across repetitions, whereas self-anchoring holds ECE flat at approximately .333 -- indicating that SACD can manifest as suppression of natural calibration improvement rather than ac
- Abstract(参考訳): 大規模言語モデル (LLMs) では, 複数ターン会話において, 先行出力を反復的に構築する場合に, 信頼度に体系的な変化を示す傾向を示す。
我々は,3つのフロンティアモデル – Claude Sonnet 4.6, Gemini 3.1 Pro, GPT-5.2 – を,1ターンベースライン(A),マルチターンセルフアンチョリング(B),独立反復制御(C)という3つの条件を用いて,事実,技術,オープンエンドドメインにまたがる150の質問に対して比較した実証的研究を行った。
その結果、事前登録された仮説から部分的に分岐する複雑なモデル不均一パターンが明らかとなった。
クロード・ソネット4.6は自己アンカリング(CDS = -0.032, t(14) = -2.43, p = .029, d = -0.627)の下で大きな信頼性低下を示し、また大きな校正誤差のドリフト(F(4,56) = 22.77, p < .001, eta^2 = .791)を示した。
GPT-5.2はオープンエンドドメイン(平均CDS=+0.026)では逆パターンを示し、ターン5によるCEエスカレーションは大きい。
Gemini 3.1 Pro は CDS (t(14) = 0.38, p = .710) を示さなかったが、その条件 C データは、自己調整なしでは、ジェミニの校正誤差が .327 から .0 に減少するのに対して、自己調整は ECE を .333 に平坦に保ち、SACD は ac よりも自然校正の改善を抑制できることを示している。
関連論文リスト
- ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Do Large Language Models Know What They Don't Know? Kalshibench: A New Benchmark for Evaluating Epistemic Calibration via Prediction Markets [0.0]
十分に校正されたモデルは、実際の正確さと一致した信頼を表現するべきです -- 80%の信頼性を主張する場合には、80%の時間を正すべきです。
我々はCFTCが規制する取引所であるKalshiから300の予測市場質問のベンチマークであるtextbfKalshiBenchを紹介した。
我々は、Claude Opus 4.5, GPT-5.2, DeepSeek-V3.2, Qwen3-235B, Kimi-K2 の5つのフロンティアモデルを評価し、全モデルにまたがるテキストの過信を求める。
論文 参考訳(メタデータ) (2025-12-17T23:23:06Z) - Beyond Accuracy: A Geometric Stability Analysis of Large Language Models in Chess Evaluation [8.694064926527902]
本稿では,標準精度測定値が真の幾何学的推論と標準基板状態の表層記憶とを区別できないことを論じる。
我々は、不変変換の下でモデルの一貫性を厳格にテストする新しい評価手法を適用した。
我々は、幾何安定性がAI評価に不可欠な指標であり、データ汚染から推論能力を引き離すために必要なプロキシを提供すると結論付けている。
論文 参考訳(メタデータ) (2025-12-17T02:49:10Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - The Devil in the Details: Emergent Misalignment, Format and Coherence in Open-Weights LLMs [0.0]
次世代オープンウェイトモデルがQwen-2.5ファミリーに類似した耐性を示すかどうかを評価する。
9つの現代的なオープンウェイトモデルにまたがって効果を再現する。
論文 参考訳(メタデータ) (2025-11-25T09:25:33Z) - Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs [0.0]
PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。
我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
論文 参考訳(メタデータ) (2025-11-21T13:01:28Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。