論文の概要: Data Attribution in Large Language Models via Bidirectional Gradient Optimization
- arxiv url: http://arxiv.org/abs/2606.04928v1
- Date: Wed, 03 Jun 2026 14:21:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.820122
- Title: Data Attribution in Large Language Models via Bidirectional Gradient Optimization
- Title(参考訳): 双方向勾配最適化による大規模言語モデルにおけるデータ帰属
- Authors: Frédéric Berdoz, Luca A. Lanzendörfer, Kaan Bayraktar, Roger Wattenhofer,
- Abstract要約: 大きな言語モデル(LLM)は、様々なアプリケーションにまたがってデプロイされるようになっている。
モデルの出力に最も影響したトレーニングデータの理解は、依然として根本的なオープンな問題である。
トレーニング中に生成されたアウトプットを見た場合、トレーニングデータにどのような影響があるのか?
提案手法は, 生成したテキストサンプルに対して, 双方向勾配最適化(漸進的上昇・降下)を用いてベースモデルを摂動させ, トレーニングサンプル間の損失変化を計測する。
- 参考スコア(独自算出の注目度): 35.61634772862795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed across diverse applications, raising critical questions for governance, accountability, and data provenance. Understanding which training data most influenced a model's output remains a fundamental open problem. We address this challenge through training data attribution (TDA) for auto-regressive LLMs by expanding upon the inverse formulation: How would training data be affected if the model had seen the generated output during training? Our method perturbs the base model using bidirectional gradient optimization (gradient ascent and descent) on a generated text sample and measures the resulting change in loss across training samples. Our framework supports attribution at arbitrary data granularity, enabling both factual and stylistic attribution. We evaluate our method against baselines on pretrained models with known datasets, and show that it outperforms previous work on influence metrics, thereby enhancing model interpretability, an essential requirement for accountable AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまなアプリケーションにまたがってデプロイされ、ガバナンス、説明責任、データ証明に関する重要な疑問が提起されている。
モデルの出力に最も影響したトレーニングデータを理解することは、依然として根本的なオープンな問題である。
逆定式化を拡大することにより、自動回帰LDMのトレーニングデータ属性(TDA)を通じてこの問題に対処する。
提案手法は, 生成したテキストサンプルに対して, 双方向勾配最適化(漸進的上昇・降下)を用いてベースモデルを摂動させ, トレーニングサンプル間の損失変化を計測する。
我々のフレームワークは、任意のデータ粒度における属性をサポートし、事実的および様式的属性の両方を可能にする。
我々は、既知のデータセットを用いた事前学習モデルに基づくベースラインに対する手法の評価を行い、従来の影響指標よりも優れており、従って、説明可能なAIシステムに必要なモデル解釈可能性を高めていることを示す。
関連論文リスト
- STRIDE: Training Data Attribution via Sparse Recovery from Subset Perturbations [46.963298896594814]
トレーニングデータ属性(Training Data Attribution)は、モデルの予測をトレーニングデータに遡る。
ほとんどのアプローチでは、勾配を使ってパラメータ空間でこの効果を近似する。
活性化空間におけるトレーニングデータの機能的効果をモデル化する。
論文 参考訳(メタデータ) (2026-06-03T17:59:36Z) - Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
我々は,既存の勾配法を改良し,大規模に効果的に機能させる。
我々は、インプロンプトセットとモデルアウトプットをWebベースの可視化ツールとともにリリースし、影響力のある例を探索します。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Unlearning Traces the Influential Training Data of Language Models [31.33791825286853]
アンラーニングは、トレーニングデータセットがモデルの性能に与える影響をトレースする。
よりスケーラブルなアプローチであるUnTrac-Invを提案し、テストデータセットを解放し、トレーニングデータセットの未学習モデルを評価する。
論文 参考訳(メタデータ) (2024-01-26T23:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。