論文の概要: Preference-aware Influence-function-based Data Selection Method for Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.21422v1
- Date: Wed, 20 May 2026 17:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.806315
- Title: Preference-aware Influence-function-based Data Selection Method for Efficient Fine-Tuning
- Title(参考訳): 適応型インフルエンス・インフルエンス・ベースの効率的な微調整のためのデータ選択法
- Authors: Qihao Lin, Guanxu Chen, Dongrui Liu, Jing Shao,
- Abstract要約: 既存のメソッドは通常、一連の対象の例で対象の振る舞いを表現するが、これらの例を同じように重要視することが多い。
提案するPRISMは,現在のモデルが対象とするサンプルの重み付けに用いた選好を用いて,嗜好を意識した目標表現を構築する。
PRISMは、この表現と一致して候補トレーニングサンプルをスコアし、データ予算をサンプルに集中させることで、モデルを目標の行動に向かって移動させる可能性が高くなる。
- 参考スコア(独自算出の注目度): 32.8917548788909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLMs continue to scale, improving training efficiency increasingly depends on using data more effectively. Data selection addresses this problem by allocating a limited training budget to samples that best promote a target behavior. Existing methods usually represent the target behavior with a set of target examples, but often treat these examples as equally important. This can be inefficient because target examples may differ in their relevance to the current model: examples closer to the model's current behavior provide more actionable guidance than those farther away. We propose PRISM (PReference-aware Influence-function-based Data Selection Method for Efficient Fine-Tuning), which uses the current model's preference to weight target examples and construct a preference-aware target representation. PRISM then scores candidate training samples by their alignment with this representation, concentrating the data budget on samples more likely to move the model toward the target behavior. Theoretical analysis shows that this preference weighting yields a more effective first-order direction for increasing target-behavior preference. Experiments across model families and scales show that PRISM improves both efficient fine-tuning and safety-oriented SFT repair, demonstrating that precise target-behavior characterization is key to budget-efficient data selection.
- Abstract(参考訳): LLMのスケールアップが進むにつれて、トレーニング効率の向上はデータの使用にますます依存している。
データ選択は、ターゲットの振る舞いを最も促進するサンプルに限られたトレーニング予算を割り当てることで、この問題に対処する。
既存のメソッドは通常、一連の対象の例で対象の振る舞いを表現するが、これらの例を同じように重要視することが多い。
モデルの現在の振る舞いに近い例は、遠くにあるものよりも、より実用的なガイダンスを提供します。
PRISM (PReference-aware Influence-function-based Data Selection Method for Efficient Fine-Tuning) を提案する。
PRISMは、候補となるトレーニングサンプルをこの表現に合わせることでスコア付けし、データ予算をサンプルに集中させ、モデルがターゲットの動作に向かって移動しやすいようにします。
理論的解析により、この選好重み付けは、目標-行動選好を増加させるためにより効果的な1次方向をもたらすことが示されている。
モデルファミリとスケールにわたる実験により、PRISMは効率的な微調整と安全指向のSFT修復の両方を改善し、正確な目標ビヘイビア特性が予算効率のよいデータ選択の鍵であることを実証した。
関連論文リスト
- Towards Understanding Valuable Preference Data for Large Language Model Alignment [85.38864561060088]
大規模言語モデル(LLM)のアライメントは通常、人間の好みの比較から学習することで達成される。
新たに提案したTruncated Influence Function (TIF) を用いた検証データに対する個人の影響によるデータ品質の評価を行う。
この目的のために、我々はそれらを組み合わせ、様々なエラーソースをオフセットし、単純だが効果的なデータ選択ルールをもたらす。
論文 参考訳(メタデータ) (2025-10-15T06:57:55Z) - Adaptive Preference Optimization with Uncertainty-aware Utility Anchor [33.74005997646761]
オフライン優先最適化手法は、大規模言語モデル(LLM)のアライメントに効率的である。
提案手法は, 嗜好データアノテーションから生じる不確実性を推定するアンカー機能を導入し, オフラインの選好最適化手法の一般的なフレームワークを提案する。
本手法は,データ不備のシナリオにおいてもトレーニングが可能であり,データ利用効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-03T10:20:08Z) - GFRIEND: Generative Few-shot Reward Inference through EfficieNt DPO [3.189559302776161]
人間のフィードバックから強化学習の効率性とスケーラビリティを高めるためには,高性能な報酬モデルを数ショットデータでトレーニングする能力が重要である。
本稿では,小規模データセットでトレーニングした生成報酬モデルが大規模データセットでトレーニングしたモデルに匹敵するパフォーマンスを実現するためのデータ拡張拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T16:37:13Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Behavior-Contextualized Item Preference Modeling for Multi-Behavior Recommendation [30.715182718492244]
本稿では,マルチビヘイビア・レコメンデーションのためのビヘイビア・コンテクスチュアライズド・アイテム・プライオリティ・モデリング(BCIPM)を提案する。
提案する行動文脈化項目選好ネットワークは,それぞれの行動の中でユーザの特定の項目選好を識別し,学習する。
その後、最終勧告の目的行動に関連する嗜好のみを考慮し、補助行動からノイズを著しく低減する。
論文 参考訳(メタデータ) (2024-04-28T12:46:36Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。