論文の概要: SparseEval: Efficient Evaluation of Large Language Models by Sparse Optimization
- arxiv url: http://arxiv.org/abs/2602.07909v1
- Date: Sun, 08 Feb 2026 11:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.866815
- Title: SparseEval: Efficient Evaluation of Large Language Models by Sparse Optimization
- Title(参考訳): SparseEval:スパース最適化による大規模言語モデルの効率的な評価
- Authors: Taolin Zhang, Hang Guo, Wang Lu, Tao Dai, Shu-Tao Xia, Jindong Wang,
- Abstract要約: 大規模言語モデル(LLM)は拡大を続けており、様々な下流タスクのパフォーマンスは大幅に改善されている。
多数のベンチマークサンプルで推論を行うと、高い計算コストが発生するため、それらの能力を評価するのがますます高価になっている。
SparseEvalは,アンカーウェイトを最適化する勾配降下法を初めて導入し,アンカーセレクションに反復的洗練戦略を採用する手法である。
- 参考スコア(独自算出の注目度): 64.95852289011385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) continue to scale up, their performance on various downstream tasks has significantly improved. However, evaluating their capabilities has become increasingly expensive, as performing inference on a large number of benchmark samples incurs high computational costs. In this paper, we revisit the model-item performance matrix and show that it exhibits sparsity, that representative items can be selected as anchors, and that the task of efficient benchmarking can be formulated as a sparse optimization problem. Based on these insights, we propose SparseEval, a method that, for the first time, adopts gradient descent to optimize anchor weights and employs an iterative refinement strategy for anchor selection. We utilize the representation capacity of MLP to handle sparse optimization and propose the Anchor Importance Score and Candidate Importance Score to evaluate the value of each item for task-aware refinement. Extensive experiments demonstrate the low estimation error and high Kendall's~$τ$ of our method across a variety of benchmarks, showcasing its superior robustness and practicality in real-world scenarios. Code is available at {https://github.com/taolinzhang/SparseEval}.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケールアップが進むにつれ、さまざまな下流タスクのパフォーマンスが大幅に向上した。
しかし、多数のベンチマークサンプルの推測を行うと、高い計算コストが発生するため、それらの能力の評価はますます高価になっている。
本稿では,モデルイテム性能行列を再検討し,スパース性を示し,代表項目をアンカーとして選択し,効率的なベンチマーク処理のタスクをスパース最適化問題として定式化できることを示す。
これらの知見に基づいて,アンカーウェイトを最適化するための勾配降下法を初めて導入し,アンカーセレクションに反復的洗練戦略を採用するSparseEvalを提案する。
MLPの表現能力を利用してスパース最適化を処理し、タスク認識改善のための各項目の値を評価するためにアンカー重要度スコアと候補重要度スコアを提案する。
大規模な実験では, 予測誤差が低く, 様々なベンチマークでKendall の τ$ の値が高いことが示され, 実世界のシナリオにおいて, その優れた堅牢性と実用性を示している。
コードは、https://github.com/taolinzhang/SparseEval}で入手できる。
関連論文リスト
- Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings [23.9553588103042]
本稿では,タスク項目自体の本質的な特性に基づいて選択を行うことを論じ,サブセット選択をベンチマークする項目中心のアプローチを提案する。
Scales++は、競争力のある予測忠実性を達成しながら、事前選択コストを18倍以上削減します。
この項目中心のアプローチは,忠実度を著しく低下させることなく,より効率的なモデル評価を可能にすることを実証する。
論文 参考訳(メタデータ) (2025-10-30T11:28:58Z) - carps: A Framework for Comparing N Hyperparameter Optimizers on M Benchmarks [61.79411281702448]
carpsはComprehensive Automated Research Performance Studiesのベンチマークフレームワークである。
我々は、ブラックボックス、マルチオブジェクト、マルチオブジェクト、マルチオブジェクトの4つの重要なタイプのHPOタスクに焦点をあてる。
5つのコミュニティベンチマークコレクションから336のタスクと28種類の9つのファミリーで、私たちはこれまでで最大のGotoライブラリを提供しています。
論文 参考訳(メタデータ) (2025-06-06T15:01:39Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - $φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation [22.607133083903125]
インタイム最適化は計算をスケールし、効果的なパフォーマンスのための意図的な推論ステップを導出する。
我々は、デコード戦略を事前サンプリングとして、シミュレーションされた将来のステップを利用して、大域的に最適なステップ推定を得る。
実験では、$phi$-Decodingはパフォーマンスと効率の両方において、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-17T15:38:33Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - IOHanalyzer: Detailed Performance Analyses for Iterative Optimization
Heuristics [3.967483941966979]
IOHanalyzerは、IOHのパフォーマンスデータを分析、比較、視覚化するための新しいユーザフレンドリーなツールである。
IOHanalyzerは、固定目標実行時間とベンチマークアルゴリズムの固定予算性能に関する詳細な統計を提供する。
IOHanalyzerは、主要なベンチマークプラットフォームから直接パフォーマンスデータを処理できる。
論文 参考訳(メタデータ) (2020-07-08T08:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。