論文の概要: Holdout-Loss-Based Data Selection for LLM Finetuning via In-Context Learning
- arxiv url: http://arxiv.org/abs/2510.14459v1
- Date: Thu, 16 Oct 2025 09:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.789376
- Title: Holdout-Loss-Based Data Selection for LLM Finetuning via In-Context Learning
- Title(参考訳): 文脈学習によるLLMファインタニングのためのホールドアウトロスに基づくデータ選択
- Authors: Ling Zhang, Xianliang Yang, Juwon Yu, Park Cheonyoung, Lei Song, Jiang Bian,
- Abstract要約: 本稿では,データ選択と再重み付けのための理論的に基礎的,資源効率のよいフレームワークを提案する。
In-Context Approximation (ICA) は、モデルが候補の例でトレーニングした後のホールドアウト損失を推定する。
モデルパラメータの進化に伴い, ICAスコアから指数重みを導出し, 勾配更新を動的に再加重する。
- 参考スコア(独自算出の注目度): 19.677969862434708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large pretrained language models is a common approach for aligning them with human preferences, but noisy or off-target examples can dilute supervision. While small, well-chosen datasets often match the performance of much larger ones, systematic and efficient ways to identify high-value training data remain underexplored. Many current methods rely on heuristics or expensive retraining. We present a theoretically grounded, resource-efficient framework for data selection and reweighting. At its core is an In-Context Approximation (ICA) that estimates the holdout loss a model would incur after training on a candidate example by conditioning on a small, curated holdout set in context. ICA requires no reference model and no additional finetuning. Under a local linearization, ICA is equivalent to a first-order update toward the holdout optimum, motivating its use as a proxy for data value. We derive per-example weights from ICA scores, dynamically reweighting gradient updates as model parameters evolve. Across SFT, DPO, and SimPO, and over diverse backbones and datasets, ICA-based reweighting consistently improves model alignment with minimal overhead. We analyze sensitivity to score update frequency and the choice of $k$ holdout examples for in-context demonstrations, and note limitations for rapidly drifting on-policy updates, highlighting directions for future work. Code and prompts will be released.
- Abstract(参考訳): 微調整された大きな事前訓練された言語モデルは、人間の好みに合わせるための一般的なアプローチであるが、ノイズやターゲット外の例は監督を弱める可能性がある。
非常に大きなデータセットのパフォーマンスによくマッチするが、高価値なトレーニングデータを特定するための体系的かつ効率的な方法は、まだ未調査のままである。
現在の多くの手法はヒューリスティックや高価なリトレーニングに依存している。
本稿では,データ選択と再重み付けのための理論的に基礎的,資源効率のよいフレームワークを提案する。
ICA(In-Context Approximation)は、モデルが候補の例でトレーニング後に発生するホールドアウト損失を、コンテキスト内の小さな、キュレートされたホールドアウトセットに条件付けすることで推定する。
ICAは参照モデルや追加の微調整を必要としない。
局所線形化の下では、ICAはホールトアウト最適化に向けた一階更新と等価であり、データ値のプロキシとしての利用を動機付けている。
モデルパラメータの進化に伴い, ICAスコアから指数重みを導出し, 勾配更新を動的に再加重する。
SFT、DPO、SimPOの他、さまざまなバックボーンとデータセットを通じて、ICAベースのリウェイト処理は、最小限のオーバーヘッドでモデルのアライメントを一貫して改善する。
我々は、更新頻度を評価するための感度と、コンテキスト内デモのための$k$ホールドアウトの例の選択を分析し、迅速なオン・ポリシー更新の制限に注意し、今後の作業の方向性を強調します。
コードとプロンプトがリリースされる。
関連論文リスト
- Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。
テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。
特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文 参考訳(メタデータ) (2025-06-21T21:49:02Z) - Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。
文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。
モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文 参考訳(メタデータ) (2025-06-13T18:08:54Z) - ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection [28.75333303894706]
ToReMiは、トピックの関連や観察された学習パターンに応じてトレーニングサンプル重量を調整する新しいフレームワークである。
実験の結果,ToReMiの変種は従来の事前学習手法よりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-04-01T12:06:42Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Few-Shot Load Forecasting Under Data Scarcity in Smart Grids: A Meta-Learning Approach [0.18641315013048293]
本稿では,短期負荷予測のためのモデルに依存しないメタ学習アルゴリズムを提案する。
提案手法は,任意の長さの未知の負荷時間列に迅速に適応し,一般化することができる。
提案手法は,実世界の消費者の歴史的負荷消費データのデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-06-09T18:59:08Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Fine-Tuning Pre-Trained Language Models Effectively by Optimizing
Subnetworks Adaptively [32.001304911395756]
微調整時の大規模事前学習モデルの動的選択(DPS)アルゴリズムを提案する。
GLUEベンチマークの実験では、DPSは全体的な性能と安定性の点で従来の微調整法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。