論文の概要: Influence-Preserving Proxies for Gradient-Based Data Selection in LLM Fine-tuning
- arxiv url: http://arxiv.org/abs/2602.17835v1
- Date: Thu, 19 Feb 2026 20:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.145956
- Title: Influence-Preserving Proxies for Gradient-Based Data Selection in LLM Fine-tuning
- Title(参考訳): LLMファインチューニングにおける勾配データ選択に対する影響保存プロキシ
- Authors: Sirui Chen, Yunzhe Qi, Mengting Ai, Yifan Sun, Ruizhong Qiu, Jiaru Zou, Jingrui He,
- Abstract要約: 対象モデルから直接影響保存プロキシを導出するフレームワークであるIproxを紹介する。
Iproxは、既製のプロキシやベースラインメソッドよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 51.87858735871145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) relies critically on selecting training data that most benefits a model's downstream performance. Gradient-based data selection methods such as TracIn and Influence Functions leverage influence to identify useful samples, but their computational cost scales poorly, making them impractical for multi-billion-parameter large language models (LLMs). A common alternative is to use off-the-shelf smaller models as proxies, but they remain suboptimal since their learning dynamics are unclear, their sizes cannot be flexibly adjusted, and they cannot be further aligned with the target model in terms of gradient-based influence estimation. To address these challenges, we introduce Iprox, a two-stage framework that derives influence-preserving proxies directly from the target model. It first applies a low-rank compression stage to preserve influence information of the target model, and then an aligning stage to align both model gradients and logits, thereby constructing proxies that flexibly control computational cost while retaining the target model's influence. Experimental results across diverse LLM families and evaluation tasks show that Iprox consistently outperforms off-the-shelf proxies and baseline methods. On Qwen3-4B, a 1.5B proxy constructed with Iprox achieves stronger performance than the larger 1.7B off-the-shelf proxy. Notably, on Llama3.2, Iprox achieves better performance than baselines while reducing computational cost by more than half relative to the full 3B model. These results show that Iprox provides effective influence-preserving proxies, making gradient-based data selection more scalable for LLMs.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、モデルの下流のパフォーマンスに最も寄与するトレーニングデータの選択に極めて依存する。
TracInやEmpfect Functionsのようなグラディエントベースのデータ選択手法は、影響を利用して有用なサンプルを識別するが、その計算コストは低いため、マルチビリオンパラメータ大言語モデル(LLM)では実用的ではない。
一般的な方法は、オフ・ザ・シェルフの小さなモデルをプロキシとして使用することであるが、学習力学が不明確であるため、そのサイズは柔軟に調整できず、勾配に基づく影響推定の観点からターゲットモデルとさらに整合することができない。
これらの課題に対処するため、ターゲットモデルから直接影響保存プロキシを導出する2段階のフレームワークであるIproxを紹介した。
まず、目標モデルの影響情報を保持するために低ランク圧縮ステージを適用し、次に、モデル勾配とロジットの両方を整列する整列ステージを適用して、目標モデルの影響を維持しつつ、計算コストを柔軟に制御するプロキシを構築する。
各種LLMファミリーを対象とした実験結果から,Iproxは市販のプロキシやベースライン法よりも一貫して優れていた。
Qwen3-4Bでは、Iproxで構築された1.5Bプロキシが、1.7Bオフザシェルフプロキシよりも高いパフォーマンスを達成する。
特に、Llama3.2では、Iproxはベースラインよりも性能が良く、計算コストはフル3Bモデルに比べて半減する。
これらの結果は、Iproxが効果的な影響保存プロキシを提供し、LSMに対して勾配に基づくデータ選択をよりスケーラブルにすることを示している。
関連論文リスト
- First is Not Really Better Than Last: Evaluating Layer Choice and Aggregation Strategies in Language Model Data Influence Estimation [8.788531432978802]
モデル決定を効果的に解釈するためには、LLM(Large Language Model)決定に影響を及ぼす訓練サンプルが不可欠である。
現在のトレーニングサンプル影響推定法(インフルエンス関数とも呼ばれる)は、モデルを通しての情報フローを利用することで、この目標を達成している。
しかしながら、数十億のパラメータからなる今日の大規模なモデルサイズのため、これらの影響計算はモデル層の一部に制限されることが多い。
論文 参考訳(メタデータ) (2025-11-06T00:47:07Z) - Data-Efficient RLVR via Off-Policy Influence Guidance [84.60336960383867]
本研究は,学習目標に対する各データポイントの寄与を推定するために,影響関数を用いた理論的基礎的アプローチを提案する。
textbfCurriculum textbfRL with textbfOff-textbfPolicy textInfluence Guide (textbfCROPI) は多段階のRLフレームワークで、現在のポリシーにおいて最も影響力のあるデータを反復的に選択する。
論文 参考訳(メタデータ) (2025-10-30T13:40:52Z) - Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - BLISS: A Lightweight Bilevel Influence Scoring Method for Data Selection in Language Model Pretraining [28.32850393150554]
BLISSは、外部の事前訓練されたオラクルモデルに頼ることなく、スクラッチから完全に高速に動作する軽量なデータ選択方法である。
C4データセットの選択したサブセット上で、410M/1B/2.8B PythiaとLLaMA-0.5Bモデルを事前学習することでBLISSを検証する。
BLISSは最先端の手法と同じ性能に達すると1.7倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-10-07T15:42:33Z) - Efficient Data Selection at Scale via Influence Distillation [53.03573620682107]
本稿では,データ選択のための数学的に修飾されたフレームワークであるインフルエンス蒸留を紹介する。
対象分布に対する各試料の影響を蒸留することにより,トレーニングデータの選択に使用されるモデル固有の重みを割り当てる。
実験の結果、蒸留の影響は最先端のパフォーマンスに匹敵し、最大3.5タイムの高速選択を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-25T09:08:00Z) - Small-to-Large Generalization: Data Influences Models Consistently Across Scale [76.87199303408161]
小規模および大規模言語モデル予測(一般的には)は、トレーニングデータの選択に非常に相関している。
また、データ属性とデータセット選択という2つの下流プロキシモデルアプリケーションにおいて、プロキシスケールが有効性にどのように影響するかを特徴付ける。
論文 参考訳(メタデータ) (2025-05-22T05:50:19Z) - Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [42.608899417822656]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。
本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文 参考訳(メタデータ) (2025-04-16T21:19:09Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Tuning Language Models by Proxy [110.49482736590907]
直接チューニングと同じ目的を達成するために,ブラックボックスLM上で動作する軽量復号時間アルゴリズムであるプロキシチューニングを導入する。
提案手法は, 小型のLMをチューニングし, 小型のLMと未チューニングのLMの予測の差を適用して, より大型の未チューニングモデルの本来の予測をチューニング方向にシフトさせる。
論文 参考訳(メタデータ) (2024-01-16T18:49:55Z) - Balancing Act: Constraining Disparate Impact in Sparse Models [20.058720715290434]
本研究では,プルーニングの異なる影響に直接対処する制約付き最適化手法を提案する。
我々の定式化は、各部分群に対する密度モデルとスパースモデルの間の精度変化を束縛する。
実験により,本手法は大規模モデルや数百の保護されたサブグループに関わる問題に対して確実にスケール可能であることが示された。
論文 参考訳(メタデータ) (2023-10-31T17:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。