論文の概要: Influence Functions for Preference Dataset Pruning
- arxiv url: http://arxiv.org/abs/2507.14344v1
- Date: Fri, 18 Jul 2025 19:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.849848
- Title: Influence Functions for Preference Dataset Pruning
- Title(参考訳): 選好データセットのプルーニングにおける影響関数
- Authors: Daniel Fein, Gabriela Aranguiz-Dias,
- Abstract要約: 本研究では,TL;DRデータセットを報酬モデルトレーニングに適用し,共役勾配近似影響関数を用いてデータセットをフィルタする方法を実証する。
実験では, 学習例の10%を取り除いた結果, 影響関数フィルタリングにより, トレーニング精度が1.5%向上した。
また, 勾配類似性は, 有用なトレーニング例を検出するために, 影響関数より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.6138671548064356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are commonly fine-tuned via reinforcement learning to alter their behavior or elicit new capabilities. Datasets used for these purposes, and particularly human preference datasets, are often noisy. The relatively small size post-training datasets, combined with parameter-efficient fine-tuning methods, enable the use of influence functions approximations to detect and prune training examples that are harmful to performance on a validation set. In this work, we adapt the TL;DR dataset for reward model training to demonstrate how conjugate-gradient approximated influence functions can be used to filter datasets. In our experiments, influence function filtering yields a small retraining accuracy uplift of 1.5% after removing 10% of training examples. We also show that gradient similarity outperforms influence functions for detecting helpful training examples. This suggests that local curvature is important for detecting harmful training examples, but less so for identifying helpful examples.
- Abstract(参考訳): 言語モデルは一般的に、その振る舞いを変更したり、新しい機能を引き出すために強化学習を通じて微調整される。
これらの目的で使われるデータセット、特に人間の好みのデータセットは、しばしばうるさい。
比較的小さなトレーニング後のデータセットとパラメータ効率のよい微調整手法を組み合わせることで、評価セットのパフォーマンスに有害なトレーニング例の検出とプルーンのインフルエンス関数近似の利用が可能になる。
本研究では,TL;DRデータセットを報酬モデルトレーニングに適用し,共役勾配近似影響関数を用いてデータセットをフィルタする方法を実証する。
実験では, 学習例の10%を取り除いた結果, 影響関数フィルタリングにより, トレーニング精度が1.5%向上した。
また, 勾配類似性は, 有用なトレーニング例を検出するために, 影響関数より優れていることを示す。
このことは、局所曲率が有害なトレーニング例の検出に重要であることを示唆するが、有用な例を特定するにはそれほど重要ではないことを示唆している。
関連論文リスト
- Rescaled Influence Functions: Accurate Data Attribution in High Dimension [6.812390750464419]
本稿では,データ帰属のための新しいツールであるRescaled Influence Function (RIF) について述べる。
実世界のデータセットでIFとRIFを比較し,実世界の予測精度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-06-07T04:19:21Z) - Efficient Data Selection at Scale via Influence Distillation [53.03573620682107]
本稿では,データ選択のための数学的に修飾されたフレームワークであるインフルエンス蒸留を紹介する。
対象分布に対する各試料の影響を蒸留することにより,トレーニングデータの選択に使用されるモデル固有の重みを割り当てる。
実験の結果、蒸留の影響は最先端のパフォーマンスに匹敵し、最大3.5タイムの高速選択を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-25T09:08:00Z) - Detecting Instruction Fine-tuning Attack on Language Models with Influence Function [6.760293300577228]
インストラクションの微調整攻撃は、モデルアライメントを損なうとともに、現実のデプロイメントにおいてセキュリティリスクを引き起こす。
本稿では,影響関数を用いて攻撃を検知・緩和する,シンプルで効果的な手法を提案する。
我々は,大規模データセットに対する言語モデル命令の微調整攻撃を検出するための影響関数を初めて適用した。
論文 参考訳(メタデータ) (2025-04-12T00:50:28Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Unlearning Traces the Influential Training Data of Language Models [31.33791825286853]
アンラーニングは、トレーニングデータセットがモデルの性能に与える影響をトレースする。
よりスケーラブルなアプローチであるUnTrac-Invを提案し、テストデータセットを解放し、トレーニングデータセットの未学習モデルを評価する。
論文 参考訳(メタデータ) (2024-01-26T23:17:31Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - If Influence Functions are the Answer, Then What is the Question? [7.873458431535409]
影響関数は、モデルの学習パラメータに対する1つのトレーニングデータポイントの除去の効果を効率的に推定する。
影響推定は線形モデルの残余再トレーニングとよく一致しているが、最近の研究では、ニューラルネットワークではこのアライメントが不十分であることが示されている。
論文 参考訳(メタデータ) (2022-09-12T16:17:43Z) - FastIF: Scalable Influence Functions for Efficient Model Interpretation
and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。
fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。
本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文 参考訳(メタデータ) (2020-12-31T18:02:34Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。