論文の概要: SPICE: Submodular Penalized Information-Conflict Selection for Efficient Large Language Model Training
- arxiv url: http://arxiv.org/abs/2601.23155v1
- Date: Fri, 30 Jan 2026 16:40:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.564871
- Title: SPICE: Submodular Penalized Information-Conflict Selection for Efficient Large Language Model Training
- Title(参考訳): SPICE: 効率的な大規模言語モデル学習のためのサブモジュール型ペナル化情報競合選択
- Authors: Powei Chang, Jinpeng Zhang, Bowen Chen, Chenyu Wang, Chenlu Guo, Yixing Zhang, Yukang Gao, JianXiang Xiang, Yue Gao, Chaoqun Sun, Yiyi Chen, Dongying Kong,
- Abstract要約: 本研究では,不一致をペナルティ化しながら情報を最大化するコンフリクト対応セレクタSPICEを提案する。
これにより、トレーニングコストを大幅に削減してパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 19.608482903732714
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Information-based data selection for instruction tuning is compelling: maximizing the log-determinant of the Fisher information yields a monotone submodular objective, enabling greedy algorithms to achieve a $(1-1/e)$ approximation under a cardinality budget. In practice, however, we identify alleviating gradient conflicts, misalignment between per-sample gradients, is a key factor that slows down the decay of marginal log-determinant information gains, thereby preventing significant loss of information. We formalize this via an $\varepsilon$-decomposition that quantifies the deviation from ideal submodularity as a function of conflict statistics, yielding data-dependent approximation factors that tighten as conflicts diminish. Guided by this analysis, we propose SPICE, a conflict-aware selector that maximizes information while penalizing misalignment, and that supports early stopping and proxy models for efficiency. Empirically, SPICE selects subsets with higher log-determinant information than original criteria, and these informational gains translate into performance improvements: across 8 benchmarks with LLaMA2-7B and Qwen2-7B, SPICE uses only 10% of the data, yet matches or exceeds 6 methods including full-data tuning. This achieves performance improvements with substantially lower training cost.
- Abstract(参考訳): インストラクションチューニングのための情報ベースのデータ選択は魅力的である。フィッシャー情報の対数決定式を最大化すると単調な部分モジュラー目的が得られ、グリーディアルゴリズムは基準予算の下で1-1/eの近似を達成できる。
しかし、実際には、サンプルごとの勾配のずれである緩和勾配の衝突を識別することは、辺縁対数決定情報の減少を遅らせる重要な要因であり、情報の損失を著しく抑える。
我々は、競合統計の関数として理想的な部分モジュラリティからの偏差を定量化する$\varepsilon$-decompositionによってこれを公式化し、競合が減少するにつれてデータ依存の近似因子を生じる。
この分析で導かれたSPICEは、不一致をペナル化しながら情報を最大化する競合認識セレクタであり、高速停止と効率のプロキシモデルをサポートする。
LLaMA2-7BとQwen2-7Bの8つのベンチマークにおいて、SPICEはデータの10%しか使用していないが、完全なデータチューニングを含む6つのメソッドと一致するか、超えている。
これにより、トレーニングコストを大幅に削減してパフォーマンスが向上する。
関連論文リスト
- Uncertainty-Aware Gradient Signal-to-Noise Data Selection for Instruction Tuning [16.648609404000428]
現代の命令データセットは、大きく、騒々しく、冗長であり、完全なデータの微調整はコストが高く、不要である。
本稿では,客観的な不確実性を考慮したデータ選択フレームワークであるGRADingを提案する。
本手法は, マルチアズ・ア・ジャッジ評価や人的評価において, ランダムなサブセットと強いベースラインとを一致させるか, あるいは超える。
論文 参考訳(メタデータ) (2026-01-20T07:51:32Z) - Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - ClusterUCB: Efficient Gradient-Based Data Selection for Targeted Fine-Tuning of LLMs [22.68421108740517]
本稿では、クラスタリングと修正されたアッパー信頼境界(UCB)アルゴリズムを用いた効率的な勾配に基づくデータ選択フレームワークを提案する。
各種ベンチマーク実験の結果,提案フレームワークであるClusterUCBは,従来の勾配に基づくデータ選択法と同等の結果が得られることがわかった。
論文 参考訳(メタデータ) (2025-06-12T01:53:01Z) - Combatting Dimensional Collapse in LLM Pre-Training Data via Diversified File Selection [65.96556073745197]
DiverSified File selection algorithm (DiSF) は特徴空間における最も非相関なテキストファイルを選択するために提案される。
DiSFは590万のトレーニングファイルの98.5%をSlimPajamaに保存し、50Bのトレーニング予算内でのデータ事前トレーニングを上回っている。
論文 参考訳(メタデータ) (2025-04-29T11:13:18Z) - SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation [12.838593066237452]
大規模言語モデル(LLM)は、トレーニング中に頻繁にセンシティブな情報を記憶し、公開可能なモデルをデプロイする際にリスクを生じさせる。
本稿では, 因果媒介分析と層固有の最適化を組み合わせた, 対象未学習におけるSemEval-2025タスク4の解を提案する。
論文 参考訳(メタデータ) (2025-04-17T15:05:40Z) - Less is More: Efficient Black-box Attribution via Minimal Interpretable Subset Selection [52.716143424856185]
部分モジュラー部分集合選択の最適化問題として重要領域の帰属を再構成するLiMA(Less input is more faithful for Attribution)を提案する。
LiMAは、エラーを最小限に抑える最適な帰属境界を確保しながら、最も重要かつ最も重要でないサンプルを識別する。
また, 帰属効率が1.6倍に向上し, 帰属効率が向上した。
論文 参考訳(メタデータ) (2025-04-01T06:58:15Z) - PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.24096291517857]
本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。
PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。
異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文 参考訳(メタデータ) (2025-02-09T04:31:30Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - $\nabla τ$: Gradient-based and Task-Agnostic machine Unlearning [7.04736023670375]
グラディエントベースおよびタスク非依存マシンUnlearning(nabla tau$)を紹介する。
$nabla tau$は、残りのデータに対して標準の勾配勾配を使いながら、忘れられるデータに適応的な勾配勾配を適用します。
我々は、確立されたメンバーシップ推論攻撃指標を用いて、フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-21T12:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。