論文の概要: Learning More from Less: Unlocking Internal Representations for Benchmark Compression
- arxiv url: http://arxiv.org/abs/2602.00710v2
- Date: Tue, 03 Feb 2026 05:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.706421
- Title: Learning More from Less: Unlocking Internal Representations for Benchmark Compression
- Title(参考訳): より多くを学ぶ - ベンチマーク圧縮のための内部表現のアンロック
- Authors: Yueqi Zhang, Jin Hu, Shaoxiong Feng, Peiwen Yuan, Xinglin Wang, Yiwei Li, Jiayi Shi, Chuyi Tan, Ji Zhang, Boyuan Pan, Yao Hu, Kan Li,
- Abstract要約: 異種隠蔽状態を統一潜在空間に整列させて代表コアセットを構成するREPCOREを導入する。
5つのベンチマークと200以上のモデルの実験は、ランキングの相関と推定精度において、出力ベースラインよりも一貫した利得を示している。
- 参考スコア(独自算出の注目度): 37.69575776639016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prohibitive cost of evaluating Large Language Models (LLMs) necessitates efficient alternatives to full-scale benchmarking. Prevalent approaches address this by identifying a small coreset of items to approximate full-benchmark performance. However, existing methods must estimate a reliable item profile from response patterns across many source models, which becomes statistically unstable when the source pool is small. This dependency is particularly limiting for newly released benchmarks with minimal historical evaluation data. We argue that discrete correctness labels are a lossy view of the model's decision process and fail to capture information encoded in hidden states. To address this, we introduce REPCORE, which aligns heterogeneous hidden states into a unified latent space to construct representative coresets. Using these subsets for performance extrapolation, REPCORE achieves precise estimation accuracy with as few as ten source models. Experiments on five benchmarks and over 200 models show consistent gains over output-based baselines in ranking correlation and estimation accuracy. Spectral analysis further indicates that the aligned representations contain separable components reflecting broad response tendencies and task-specific reasoning patterns.
- Abstract(参考訳): LLM(Large Language Models)を評価することの禁止コストは、フルスケールのベンチマークに効率的な代替手段を必要とする。
一般的なアプローチは、フルベンチマークのパフォーマンスを近似するために、アイテムの小さなコアセットを特定することで、この問題に対処する。
しかし、既存の手法では、多くのソースモデルにまたがる応答パターンから信頼できるアイテムプロファイルを推定しなければならない。
この依存関係は、特に、最小の履歴評価データを持つ新しくリリースされたベンチマークに制限されている。
離散正当性ラベルは、モデルの決定過程を損なうものであり、隠された状態に符号化された情報を捕捉できないと主張している。
これを解決するために、REPCOREを導入し、不均一な隠蔽状態を統一潜在空間に整列させ、代表コアセットを構築する。
性能補間にこれらのサブセットを用いることで、REPCOREは10個のソースモデルで正確な推定精度を達成できる。
5つのベンチマークと200以上のモデルの実験は、ランキングの相関と推定精度において、出力ベースラインよりも一貫した利得を示している。
スペクトル分析により、アライメント表現は、広い応答傾向とタスク固有の推論パターンを反映した分離可能な成分を含むことが示された。
関連論文リスト
- Uncovering Competency Gaps in Large Language Models and Their Benchmarks [11.572508874955659]
本稿では,スパースオートエンコーダ(SAE)を用いて,両方のギャップを自動的に発見する手法を提案する。
我々は、モデルが、サイコファンティックな振る舞いとは対照的な概念に一貫して劣っていることを発見した。
提案手法は,ベンチマークスコアの概念レベルの分解を可能にするため,評価のための表現的アプローチを提供する。
論文 参考訳(メタデータ) (2025-12-06T17:39:47Z) - Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings [23.9553588103042]
本稿では,タスク項目自体の本質的な特性に基づいて選択を行うことを論じ,サブセット選択をベンチマークする項目中心のアプローチを提案する。
Scales++は、競争力のある予測忠実性を達成しながら、事前選択コストを18倍以上削減します。
この項目中心のアプローチは,忠実度を著しく低下させることなく,より効率的なモデル評価を可能にすることを実証する。
論文 参考訳(メタデータ) (2025-10-30T11:28:58Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - The NazoNazo Benchmark: A Cost-Effective and Extensible Test of Insight-Based Reasoning in LLMs [3.9977256267361754]
そこで本研究では,日本人児童のライドルから構築した費用効果評価指標であるNazonazoについて紹介する。
GPT-5以外のモデルは人間の性能に匹敵せず、平均精度は52.9%である。
論文 参考訳(メタデータ) (2025-09-18T07:50:04Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。