論文の概要: Modeling and Predicting Multi-Turn Answer Instability in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.10688v1
- Date: Wed, 12 Nov 2025 01:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.267511
- Title: Modeling and Predicting Multi-Turn Answer Instability in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるマルチターンアンサーの不安定性のモデル化と予測
- Authors: Jiahang He, Rishi Ramachandran, Neel Ramachandran, Aryan Katakam, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Aryan Shrivastava,
- Abstract要約: 大規模言語モデル(LLM)は、ますます広範囲のアプリケーションで採用されている。
本稿では,モデルの応答変化を評価するために,単純なマルチターンフォローアッププロンプトを用いる。
単純な"Think again"プロンプトによって、Gemini 1.5 Flashが9ターンで約10%の精度が低下したことが分かりました。
- 参考スコア(独自算出の注目度): 5.136381688235197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are adopted in an increasingly wide range of applications, user-model interactions have grown in both frequency and scale. Consequently, research has focused on evaluating the robustness of LLMs, an essential quality for real-world tasks. In this paper, we employ simple multi-turn follow-up prompts to evaluate models' answer changes, model accuracy dynamics across turns with Markov chains, and examine whether linear probes can predict these changes. Our results show significant vulnerabilities in LLM robustness: a simple "Think again" prompt led to an approximate 10% accuracy drop for Gemini 1.5 Flash over nine turns, while combining this prompt with a semantically equivalent reworded question caused a 7.5% drop for Claude 3.5 Haiku. Additionally, we find that model accuracy across turns can be effectively modeled using Markov chains, enabling the prediction of accuracy probabilities over time. This allows for estimation of the model's stationary (long-run) accuracy, which we find to be on average approximately 8% lower than its first-turn accuracy for Gemini 1.5 Flash. Our results from a model's hidden states also reveal evidence that linear probes can help predict future answer changes. Together, these results establish stationary accuracy as a principled robustness metric for interactive settings and expose the fragility of models under repeated questioning. Addressing this instability will be essential for deploying LLMs in high-stakes and interactive settings where consistent reasoning is as important as initial accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)がますます広範囲のアプリケーションに採用されるにつれて、ユーザとモデルの相互作用は周波数とスケールの両方で成長してきた。
その結果、LLMの堅牢性、すなわち現実世界のタスクに欠かせない品質を評価することに焦点が当てられている。
本稿では,モデルの応答変化を評価するための単純なマルチターン追従プロンプト,マルコフ連鎖を用いたターン間のモデル精度のダイナミックスを用いて,線形プローブがこれらの変化を予測できるかどうかを検討する。
単純な"Think again"プロンプトは、9ターンでGemini 1.5 Flashの約10%の精度低下を引き起こしましたが、このプロンプトと意味論的に等価な言い換え質問の組み合わせは、Claude 3.5 Haikuの7.5%の精度低下を引き起こしました。
さらに, ターン間のモデル精度をマルコフ連鎖を用いて効果的にモデル化し, 時間とともに精度の予測を可能にする。
これにより、モデルの定常的(長期的)精度を推定でき、Gemini 1.5 Flashの1ターン精度よりも平均8%低い。
モデルが隠れた状態から得られた結果は、線形プローブが将来の答えの変化を予測するのに役立つことを示す。
これらの結果は、対話的な設定のための原則的ロバストネス指標として定常精度を確立し、繰り返し疑問を呈するモデルの脆弱さを明らかにする。
この不安定性に対処することは、一貫した推論が初期精度と同じくらい重要である、ハイテイクでインタラクティブな設定でLLMをデプロイするために不可欠である。
関連論文リスト
- MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - DUAL: Dynamic Uncertainty-Aware Learning [19.100858792977807]
単一モーダルシナリオとマルチモーダルシナリオの両方において,機能不確実性を効果的に処理する統合フレームワークであるDynamicUncertainty-Aware Learning (DUAL)を提案する。
DUALは3つの重要なイノベーションを紹介している。ダイナミックな特徴の不確実性モデリング、適応的な分散-認識変調、不確実性-認識の相互関係である。
論文 参考訳(メタデータ) (2025-05-21T18:50:15Z) - RECSIP: REpeated Clustering of Scores Improving the Precision [0.0]
本稿では,repeated Clustering of Scores Improving the Precision (RECSIP)を紹介する。
RECSIPは大規模言語モデル(LLM)の精度向上に重点を置いており、複数のモデルを並列に問い合わせ、応答のスコア付けとクラスタ化を行い、応答に対する信頼性を高める。
GPT-4o, Claude, Gemini モデルを用いたベンチマーク MMLU-Pro による基準実装の評価では, 使用済みモデルと比較して総合的に5.8% の増加が見られた。
論文 参考訳(メタデータ) (2025-03-15T12:36:32Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Towards a robust and reliable deep learning approach for detection of
compact binary mergers in gravitational wave data [0.0]
我々は、段階的に深層学習モデルを開発し、その堅牢性と信頼性の向上に取り組みます。
我々はGAN(Generative Adversarial Network)を含む新しいフレームワークでモデルを再訓練する。
絶対ロバスト性は事実上達成できないが、そのような訓練によって得られるいくつかの根本的な改善を実証する。
論文 参考訳(メタデータ) (2023-06-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。