論文の概要: Efficient Forward-Only Data Valuation for Pretrained LLMs and VLMs
- arxiv url: http://arxiv.org/abs/2508.10180v1
- Date: Wed, 13 Aug 2025 20:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.112129
- Title: Efficient Forward-Only Data Valuation for Pretrained LLMs and VLMs
- Title(参考訳): プレトレーニングLDMとVLMの高効率フォワードオンリーデータ評価
- Authors: Wenlong Deng, Jiaming Zhang, Qi Zeng, Christos Thrampoulidis, Boying Gong, Xiaoxiao Li,
- Abstract要約: For-Valueは、大規模言語モデル(LLM)と視覚言語モデル(VLM)のためのフォワードオンリーのデータアセスメントフレームワークである。
For-Valueは、単一のフォワードパスのみに基づく単純なクローズドフォーム式を使用して影響スコアを計算する。
理論的解析により,For-Valueは隠れ表現のアライメントとトレーニングと検証サンプル間の予測誤差を捉えることで,サンプルごとの影響を正確に推定することを示した。
- 参考スコア(独自算出の注目度): 39.74751512961964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantifying the influence of individual training samples is essential for enhancing the transparency and accountability of large language models (LLMs) and vision-language models (VLMs). However, existing data valuation methods often rely on Hessian information or model retraining, making them computationally prohibitive for billion-parameter models. In this work, we introduce For-Value, a forward-only data valuation framework that enables scalable and efficient influence estimation for both LLMs and VLMs. By leveraging the rich representations of modern foundation models, For-Value computes influence scores using a simple closed-form expression based solely on a single forward pass, thereby eliminating the need for costly gradient computations. Our theoretical analysis demonstrates that For-Value accurately estimates per-sample influence by capturing alignment in hidden representations and prediction errors between training and validation samples. Extensive experiments show that For-Value matches or outperforms gradient-based baselines in identifying impactful fine-tuning examples and effectively detecting mislabeled data.
- Abstract(参考訳): 個別のトレーニングサンプルの影響を定量化することは、大規模言語モデル(LLM)と視覚言語モデル(VLM)の透明性と説明責任を高めるために不可欠である。
しかし、既存のデータ評価手法は、しばしばヘッセン情報やモデル再訓練に依存しており、数十億パラメータのモデルでは計算的に禁止されている。
本稿では,LLMとVLMの両方に対して,スケーラブルかつ効率的な影響推定を可能にする,フォワードオンリーのデータアセスメントフレームワークであるFor-Valueを紹介する。
現代基礎モデルの豊かな表現を活用することで、For-Valueは単一の前方通過のみに基づく単純な閉形式表現を用いて影響スコアを計算し、コストのかかる勾配計算を不要にする。
理論的解析により,For-Valueは隠れ表現のアライメントとトレーニングと検証サンプル間の予測誤差を捉えることで,サンプルごとの影響を正確に推定することを示した。
広範囲な実験により、For-Valueは、影響のある微調整例を特定し、誤ったラベル付きデータを効果的に検出するグラデーションベースのベースラインにマッチし、より優れることが示された。
関連論文リスト
- Losing is for Cherishing: Data Valuation Based on Machine Unlearning and Shapley Value [18.858879113762917]
我々は、機械学習を利用してデータ値を効率的に推定する新しいフレームワークUnlearning Shapleyを提案する。
提案手法は,モンテカルロサンプリングによるシェープリー値の計算を行い,再学習を回避し,全データへの依存を排除した。
この作業は、データバリュエーション理論と実践的デプロイメントのギャップを埋め、現代のAIエコシステムにスケーラブルでプライバシに準拠したソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-22T02:46:03Z) - DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Feasible Learning [78.6167929413604]
本稿では,サンプル中心の学習パラダイムであるFeasible Learning(FL)を紹介する。
大規模言語モデルにおける画像分類, 年齢回帰, 好みの最適化といった経験的分析により, FLを用いて訓練したモデルでは, 平均的性能に限界があるものの, ERMと比較して改善された尾の挙動を示しながらデータから学習できることが実証された。
論文 参考訳(メタデータ) (2025-01-24T20:39:38Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [36.05242956018461]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。
まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。
次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。