論文の概要: Calibration Data Trade-offs Across Capability Dimensions: Why Multi-Source Mixing Matters for High-Sparsity LLM Pruning
- arxiv url: http://arxiv.org/abs/2606.03328v2
- Date: Mon, 08 Jun 2026 13:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:04.871556
- Title: Calibration Data Trade-offs Across Capability Dimensions: Why Multi-Source Mixing Matters for High-Sparsity LLM Pruning
- Title(参考訳): キャリブレーションデータトレードオフがキャパビリティディメンションを越えて--高スパーシティLCMの多ソース混合がなぜ重要か
- Authors: Hu Xu, Zhaolong Xing, Congcong Liu, Jiaxing Wang, Zhida Jiang, Junshi Huang, Zhen Chen, Jianfeng Xu,
- Abstract要約: 訓練後のプルーニングは、小さな未ラベルキャリブレーションセットを使用して、大きな言語モデルを高い疎度に圧縮する。
本稿では,情報誘導型自己校正プロトコルIGSPを提案する。
- 参考スコア(独自算出の注目度): 19.73397801069819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training pruning compresses large language models to high sparsity using a small unlabelled calibration set, and recent work has concluded that the choice of calibration source has only modest impact on averaged post-pruning accuracy. We ask whether this conclusion survives once calibration impact is evaluated separately across distinct capability dimensions rather than aggregated. Decomposing post-pruning capability into General, Commonsense, Code, and Math, and analysing $n{=}15$ calibration sources via Spearman correlations between OIT information metrics and per-dimension retention, we uncover an opposite-sign trade-off: calibration perplexity correlates positively with General retention ($ρ{=}{+}0.71$) but negatively with Math and Code retention ($ρ{=}{-}0.53,\,{-}0.59$; $p{<}0.05$), so no single source can preserve all capabilities. We respond with multi-source calibration mixing, and propose IGSP, an information-guided self-calibration protocol that automates multi-source construction without capability-aligned corpora by minimising 4-gram aggregation and balancing perplexity across dimensions. On LLaMA-3.1-8B at SparseGPT 60% sparsity, a uniform multi-source mix reaches 58.8% total retention, outperforming the best single source (MetaMath, 50.0%) by $+8.8$ and the C4 default (40.0%) by $+18.8$; IGSP improves over Self-Cal by $+2.4$ and SGS by $+4.8$.
- Abstract(参考訳): 最近の研究は、キャリブレーション源の選択は平均的なキャリブレーション後の精度にわずかにしか影響しないと結論付けている。
この結論は, 集約ではなく, 別次元のキャリブレーションの影響を個別に評価し, 継続するかどうかを問う。
一般的な、Commonsense、Code、Mathにポストプルーニング機能を分解し、OIT情報メトリクスとディメンション単位の保持の間のスピアマン相関による$n{=}15$キャリブレーションソースを分析して、反対の符号のトレードオフを明らかにする。 キャリブレーションのパープレクシティは、一般保持(ρ{=}{+}0.71$)と正に相関するが、MathとCodeの保持(ρ{=}{-}0.53,\,{-}0.59$; $p{<}0.05$)、すなわち、すべての機能を保持することができるソースは存在しない。
情報誘導型自己校正プロトコルIGSPを提案する。IGSPは4グラムのアグリゲーションを最小化し,次元をまたいだパープレキシティのバランスをとることで,機能的コーパスを伴わないマルチソース構築を自動化する。
SparseGPTのLLaMA-3.1-8Bでは、均一なマルチソースミックスが58.8%の総保持率に達し、最高のシングルソース(MetaMath, 50.0%)を+8.8$で、C4デフォルト(40.0%)を+18.8$で、IGSPは+2.4$で、SGSを+4.8$で上回る。
関連論文リスト
- Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using Large Language Model Judges with Closed-Loop Reinforcement Learning Feedback [1.2362187555287152]
ファイナンスにおける予測評価は、ポイント予測エラーに基づく集計精度測定と予測精度テストに依存している。
本稿では,中間決定プロセス自体を評価することによって,精度試験を補完する行動予測評価手法を提案する。
論文 参考訳(メタデータ) (2026-05-07T06:31:34Z) - Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning [18.69627681731888]
オンライン推論校正(英語: Online Reasoning calibration、ORCA)は、整合予測とテストタイムトレーニングに基づいてサンプリングプロセスを校正するフレームワークである。
リスクレベルの$=0.1$で、ORCAはQwen2.5-32B効率を改善し、47.5%、監督ラベル40.7%、自己整合ラベル40.7%を節約する。
論文 参考訳(メタデータ) (2026-04-01T17:21:50Z) - Reinforcement Learning from Multi-Source Imperfect Preferences: Best-of-Both-Regimes Regret [71.69884486156359]
我々は, 累積的不完全化予算を用いて, エンフルティソースの不完全性選好からエピソードRLを考察した。
我々は,最良な登録行動を示す,後悔$tildeO(sqrtK/M+)$の統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-20T19:34:53Z) - Self-Calibrating Language Models via Test-Time Discriminative Distillation [18.46710400838861]
大規模言語モデル(LLM)は、しばしば間違って答える質問に対して体系的に過度に信頼されている。
我々は、テスト時間トレーニング(TTT)パイプラインである$textbfSECL$ ($textbfSE$lf-$textbfC$alibrating $textbfL$anguage Modelsを紹介します。
論文 参考訳(メタデータ) (2026-03-18T13:28:50Z) - One Good Source is All You Need: Near-Optimal Regret for Bandits under Heterogeneous Noise [49.12618706309658]
Source-Optimistic Adaptive Regret Minimization (SOAR) は、シャープな分散集中境界を用いて高分散ソースを創出する新しいアルゴリズムである。
我々は、標準の単一ソースMABのインスタンス依存の最適後悔を、分散$*2$で達成していることを示す。
我々の理論的境界は、提案されたベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-02-16T05:25:06Z) - FedCal: Achieving Local and Global Calibration in Federated Learning via Aggregated Parameterized Scaler [29.93307421620845]
フェデレートラーニング(FedCal)は、クライアント固有のスケーラをローカルおよびグローバルキャリブレーションに使用する。
実験では、FedCalが最高性能のベースラインを大幅に上回り、グローバルキャリブレーションエラーを平均47.66%削減した。
論文 参考訳(メタデータ) (2024-05-24T11:33:58Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Post-hoc Calibration of Neural Networks by g-Layers [51.42640515410253]
近年、ニューラルネットワークの校正に関する研究が急増している。
負ログライクリーフ(NLL)の最小化は、グローバルな最適化が達成されれば、トレーニングセット上の校正ネットワークにつながることが知られている。
基本ネットワーク (f$) が NLL のグローバルな最適化に繋がらず,追加レイヤ (g$) を追加し,パラメータを$g$ 1 に最適化することで NLL を最小化することで,キャリブレーションネットワークが得られることを示す。
論文 参考訳(メタデータ) (2020-06-23T07:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。