論文の概要: Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM
- arxiv url: http://arxiv.org/abs/2601.09001v1
- Date: Tue, 13 Jan 2026 21:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.178102
- Title: Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM
- Title(参考訳): エントロピー・センチネル:STEMにおけるデコードエントロピートレースからの連続LLM精度モニタリング
- Authors: Pedro Memoli Buffa, Luciano Del Corro,
- Abstract要約: 我々は、ドメインシフトの下で、推測時信号がスライスレベルの精度を推定できるかどうかをテストする。
軽量分類器は、インスタンスの正確性を予測し、予測された確率を平均化すると、ドメインレベルの精度推定が得られる。
- 参考スコア(独自算出の注目度): 2.0069888187253615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying LLMs raises two coupled challenges: (1) monitoring - estimating where a model underperforms as traffic and domains drift - and (2) improvement - prioritizing data acquisition to close the largest performance gaps. We test whether an inference-time signal can estimate slice-level accuracy under domain shift. For each response, we compute an output-entropy profile from final-layer next-token probabilities (from top-k logprobs) and summarize it with eleven statistics. A lightweight classifier predicts instance correctness, and averaging predicted probabilities yields a domain-level accuracy estimate. We evaluate on ten STEM reasoning benchmarks with exhaustive train/test compositions (k in {1,2,3,4}; all "10 choose k" combinations), across nine LLMs from six families (3B-20B). Estimates often track held-out benchmark accuracy, and several models show near-monotonic ordering of domains. Output-entropy profiles are thus an accessible signal for scalable monitoring and for targeting data acquisition.
- Abstract(参考訳): 1) 監視 - モデルがトラフィックやドメインがドリフトするにつれてパフォーマンスが低下する場所を推定する - そして(2) 改善 - 最大のパフォーマンスギャップを埋めるためにデータ取得を優先順位付けする。
我々は、ドメインシフトの下で、推測時信号がスライスレベルの精度を推定できるかどうかをテストする。
各応答について、最終層次トーケン確率から出力エントロピープロファイル(トップk対数確率)を計算し、11の統計値で要約する。
軽量分類器は、インスタンスの正確性を予測し、予測された確率を平均化すると、ドメインレベルの精度推定が得られる。
本研究は,全列車/試験組成(k in {1,2,3,4}; all "10 choose k" combinations)を用いたSTEM推論ベンチマークを,9種類のLLM(3B-20B)で評価した。
見積もりは、しばしばホールドアウトベンチマークの精度を追跡し、いくつかのモデルはドメインのほぼ単調な順序を示す。
したがって、アウトプットエントロピープロファイルは、スケーラブルな監視とデータ取得をターゲットとする、アクセス可能な信号である。
関連論文リスト
- ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - Bayesian Estimation and Tuning-Free Rank Detection for Probability Mass Function Tensors [17.640500920466984]
本稿では,関節のPMFを推定し,そのランクを観測データから自動的に推定する新しい枠組みを提案する。
我々は、様々なモデルパラメータの後方分布を近似するために、変分推論(VI)に基づく決定論的解を導出し、さらに、変分推論(SVI)を利用して、VVIベースのアプローチのスケーラブルバージョンを開発する。
合成データと実映画レコメンデーションデータの両方を含む実験は、推定精度、自動ランク検出、計算効率の点で、VVIおよびSVIベースの手法の利点を示している。
論文 参考訳(メタデータ) (2024-10-08T20:07:49Z) - Fully Heteroscedastic Count Regression with Deep Double Poisson Networks [6.976150282812484]
Deep Double Poisson Network (DDPN) はニューラル・離散カウント回帰モデルである。
DDPNはヘテロセダスティックガウスモデルと同様の頑健な回帰特性を示す。
多様なデータセットの実験では、DDPNが現在のベースラインを精度、キャリブレーション、アウト・オブ・ディストリビューション検出で上回っていることが示されている。
論文 参考訳(メタデータ) (2024-06-13T16:02:03Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting [61.02295959343446]
この研究はまず、相互作用モジュールから生じる不確実性をモデル化する新しい概念であるコラボレーティブ不確実性(CU)を提案する。
我々は、回帰と不確実性推定の両方を行うために、元の置換同変不確かさ推定器を備えた一般的なCU対応回帰フレームワークを構築した。
提案するフレームワークを,プラグインモジュールとして現在のSOTAマルチエージェント軌道予測システムに適用する。
論文 参考訳(メタデータ) (2022-07-11T21:17:41Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Sequential Density Ratio Estimation for Simultaneous Optimization of
Speed and Accuracy [11.470070927586017]
本稿では,この2つの障害を克服する深層ニューラルネットワークに基づくSPRTアルゴリズムであるSPRT-TANDEMを提案する。
1つのオリジナルと2つの公開ビデオデータベースでのテストでは、SPRT-TANDEMは他のベースラインよりも統計的にかなり優れた分類精度を達成する。
論文 参考訳(メタデータ) (2020-06-10T01:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。