論文の概要: Beyond Confidence: The Rhythms of Reasoning in Generative Models
- arxiv url: http://arxiv.org/abs/2602.10816v1
- Date: Wed, 11 Feb 2026 12:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.909446
- Title: Beyond Confidence: The Rhythms of Reasoning in Generative Models
- Title(参考訳): 信頼を超えて - 生成モデルにおける推論のリズム
- Authors: Deyuan Liu, Zecheng Wang, Zhanyue Qin, Zhiying Tu, Dianhui Chu, Dianbo Sui,
- Abstract要約: 大きな言語モデル(LLM)は、わずかに入力コンテキストの変化に対する感度に悩まされ、信頼性を損なうという印象的な能力を示す。
我々は,LLMが耐えうる最大内部状態を,その支配的な次トーケン予測が大幅に変化する前に定量化する新しい計量であるToken Constraint Bound(_mathrmTCB$)を紹介する。
実験の結果, 実効的なプロンプトエンジニアリングと相関し, 文脈内学習やテキスト生成において, 難易度に欠ける致命的な予測不安定性を明らかにすることができた。
- 参考スコア(独自算出の注目度): 16.58205184223738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit impressive capabilities yet suffer from sensitivity to slight input context variations, hampering reliability. Conventional metrics like accuracy and perplexity fail to assess local prediction robustness, as normalized output probabilities can obscure the underlying resilience of an LLM's internal state to perturbations. We introduce the Token Constraint Bound ($δ_{\mathrm{TCB}}$), a novel metric that quantifies the maximum internal state perturbation an LLM can withstand before its dominant next-token prediction significantly changes. Intrinsically linked to output embedding space geometry, $δ_{\mathrm{TCB}}$ provides insights into the stability of the model's internal predictive commitment. Our experiments show $δ_{\mathrm{TCB}}$ correlates with effective prompt engineering and uncovers critical prediction instabilities missed by perplexity during in-context learning and text generation. $δ_{\mathrm{TCB}}$ offers a principled, complementary approach to analyze and potentially improve the contextual stability of LLM predictions.
- Abstract(参考訳): 大きな言語モデル(LLM)は、わずかに入力コンテキストの変化に対する感度に悩まされ、信頼性を損なうという印象的な能力を示す。
正規化された出力確率は、LLMの内部状態の摂動に対するレジリエンスを曖昧にする可能性があるため、精度やパープレキシティといった従来の指標では、局所的な予測堅牢性の評価に失敗する。
我々は, LLMが耐えうる内部状態の最大摂動を, 支配的な次トーケン予測が大幅に変化する前に定量化する新しい計量であるToken Constraint Bound(δ_{\mathrm{TCB}}$)を紹介する。
出力埋め込み空間幾何学と本質的に結びついた$δ_{\mathrm{TCB}}$は、モデルの内部予測コミットメントの安定性に関する洞察を提供する。
本実験は, 実効的なプロンプト工学と相関し, 文脈内学習やテキスト生成において, 難易度に欠ける致命的な予測不安定性を明らかにするものである。
$δ_{\mathrm{TCB}}$は、LCM予測の文脈安定性を分析し、潜在的に改善するための原則化された補完的なアプローチを提供する。
関連論文リスト
- Equivariant Evidential Deep Learning for Interatomic Potentials [55.6997213490859]
不確かさの定量化は、分子動力学シミュレーションにおける機械学習の原子間ポテンシャルの信頼性を評価するために重要である。
既存のMLIPのUQアプローチは、高い計算コストや準最適性能によって制限されることが多い。
我々は,原子間ポテンシャルの定量的深層学習(texte2$IP)を提案する。
論文 参考訳(メタデータ) (2026-02-11T02:00:25Z) - Understanding Robust Machine Learning for Nonparametric Regression with Heavy-Tailed Noise [10.844819221753042]
我々は、Tikhonov-regularized risk minimizationのクローズアップ例として、Huberレグレッションを使用している。
i)弱モーメント仮定下での標準濃度ツールの分解と,(ii)非有界仮説空間によってもたらされる解析的困難に対処する。
我々の研究は、原則化されたルールを提供し、ハマーを超えて他の堅牢な損失に拡張し、頑健な学習を分析するための基本的なレンズとして、過剰なリスクではなく予測エラーを強調します。
論文 参考訳(メタデータ) (2025-10-10T21:57:18Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Quantifying Prediction Consistency Under Fine-Tuning Multiplicity in Tabular LLMs [10.494477811252034]
微調整多重度は分類タスクにおけるタブラル LLM に現れる。
我々の研究は、タブラルLLMにおける微調整多重性というこのユニークな挑戦を定式化する。
本稿では,コストのかかるモデル再訓練を伴わずに,個々の予測の一貫性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - A Robustness Analysis of Blind Source Separation [91.3755431537592]
ブラインドソース分離(BSS)は、変換$f$が可逆であるが未知であるという条件の下で、その混合である$X=f(S)$から観測されていない信号を復元することを目的としている。
このような違反を分析し、その影響を$X$から$S$のブラインドリカバリに与える影響を定量化するための一般的なフレームワークを提案する。
定義された構造的仮定からの偏差に対する一般的なBSS溶出は、明示的な連続性保証という形で、利益的に分析可能であることを示す。
論文 参考訳(メタデータ) (2023-03-17T16:30:51Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。