論文の概要: Latent Performance Profiling of Large Language Models
- arxiv url: http://arxiv.org/abs/2605.30018v1
- Date: Thu, 28 May 2026 14:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.399081
- Title: Latent Performance Profiling of Large Language Models
- Title(参考訳): 大規模言語モデルの潜在性能プロファイリング
- Authors: Tanmoy Chakraborty, Ayan Sengupta, Suparna Bhattacharya, Partha Pratim Chakrabarti, Amlan Chakrabarti, Supratik Chakraborty, Partha Pratim Das, Lipika Dey, Richa Singh, Mayank Vatsa,
- Abstract要約: textbfLatent Performance Profiling (LPP) - 隠れたアクティベーションと出力分布からタスクに依存しない診断を導出するフレームワーク。
静的精度スコアとは異なり、LPPは同様のサイズのモデル間で安定でアーキテクチャに敏感なシグネチャを提供する。
類似のベンチマークスコアを持つモデルは、エントロピーや適応性の違いなど、対照的な潜在プロファイルを示すことができることを示す。
- 参考スコア(独自算出の注目度): 47.009623327601226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) frequently achieve impressive scores on standardized benchmarks, yet accuracy alone offers a limited view of their capabilities. Evaluating open-source LLMs through leaderboards faces persistent issues like data contamination, narrow task scope, and weak alignment with real-world reliability. Benchmark-based evaluations such as MMLU PRO, BBH, or IFEval primarily capture \textit{what} a model outputs on fixed test sets, not \textit{how} it processes information, calibrates uncertainty, or structures internal knowledge. In this article, we advocate for a shift from benchmark-centric evaluation toward a complementary, \textit{state-centered intrinsic assessment} of LLMs. To this end, we introduce \textbf{Latent Performance Profiling (LPP)} -- a framework that derives task-agnostic diagnostics from hidden activations and output distributions. LPP defines a set of scalar metrics on a model's latent representations and dynamics, revealing scale-independent traits that enable interpretable comparisons and uncover hidden vulnerabilities. Unlike static accuracy scores, LPP provides stable, architecture-sensitive signatures across models of similar size. With extensive empirical analyses across eight LLMs, spanning a size range of 0.5B-14B, we demonstrate that models with similar benchmark scores can exhibit contrasting latent profiles, such as differences in entropy or adaptability. Guided by these insights, we design synthetic probes for uncertainty and symbolic reasoning that align with intrinsic metrics while decoupling from leaderboard bias. We recommend that reporting LPP alongside benchmarks provides a deeper, interpretable understanding of model behavior, enabling more reliable model selection, safety assessment, and evaluation beyond surface-level accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば標準化されたベンチマークで印象的なスコアを得るが、精度だけでその能力の限られたビューを提供する。
リーダボードによるオープンソースのLCMの評価は、データ汚染、タスクスコープの狭さ、現実の信頼性との整合性の弱さといった、永続的な問題に直面します。
MMLU PRO、BBH、IFEvalなどのベンチマークベースの評価は、情報処理や不確かさの校正、内部知識の構造などではなく、固定されたテストセット上で出力されるモデルである \textit{what} を主にキャプチャする。
本稿では,ベンチマーク中心の評価から LLM の補完的な \textit{state-centered intrinsic Assessment} への移行を提唱する。
この目的のために、隠れたアクティベーションと出力分布からタスクに依存しない診断を導出するフレームワークである \textbf{Latent Performance Profiling (LPP) を導入する。
LPPは、モデルの潜在表現とダイナミクスに関するスカラーメトリクスのセットを定義し、解釈可能な比較を可能にし、隠れた脆弱性を明らかにするスケールに依存しない特性を明らかにする。
静的精度スコアとは異なり、LPPは同様のサイズのモデル間で安定でアーキテクチャに敏感なシグネチャを提供する。
0.5B-14Bの範囲にまたがる8つのLDMの広範な実験解析により,類似のベンチマークスコアを持つモデルは,エントロピーや適応性の違いなど,対照的な潜在プロファイルを示すことができることを示した。
これらの知見に導かれて、私たちは、リーダーボードバイアスから分離しながら、本質的なメトリクスと整合する不確実性と象徴的な推論のための合成プローブを設計する。
ベンチマークとともにLPPを報告することで、モデル動作をより深く理解し、より信頼性の高いモデル選択、安全性評価、表面レベルの精度以上の評価が可能になることを推奨する。
関連論文リスト
- LogitScope: A Framework for Analyzing LLM Uncertainty Through Information Metrics [1.4864875802856898]
LogitScopeは、大規模言語モデル(LLM)の不確実性を分析するための軽量フレームワークである。
生成ステップ毎にエントロピーやバレントロピーなどのメトリクスを測定することで、LogitScopeはモデルの信頼性のパターンを明らかにする。
我々は、不確実性、モデルビヘイビア分析、生産監視を含む多様なアプリケーションにまたがるLogitScopeの有用性を実証する。
論文 参考訳(メタデータ) (2026-03-26T01:46:24Z) - Trust in One Round: Confidence Estimation for Large Language Models via Structural Signals [13.89434979851652]
大規模言語モデル(LLM)は、エラーが社会的、科学的、安全コストの高い領域にますます展開されている。
本稿では,出力の正確性を予測する単一パスモデル依存フレームワークであるStructure Confidenceを提案する。
論文 参考訳(メタデータ) (2026-02-01T02:35:59Z) - Prompt Stability in Code LLMs: Measuring Sensitivity across Emotion- and Personality-Driven Variations [40.12950482269347]
本稿では,感情テンプレートと人格テンプレートを用いた意味論的に等価なプロンプト変種を生成するフレームワークであるPromptSEを提案する。
本研究は、性能と安定性が、主に分離された最適化目標として振る舞うことを示す。
PromptSEは、デプロイとモデル選択のためのパフォーマンス安定性トレードオフの定量化を可能にする。
論文 参考訳(メタデータ) (2025-09-17T04:17:42Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。