論文の概要: Scalable Multi-Stage Influence Function for Large Language Models via Eigenvalue-Corrected Kronecker-Factored Parameterization
- arxiv url: http://arxiv.org/abs/2505.05017v1
- Date: Thu, 08 May 2025 07:43:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.791823
- Title: Scalable Multi-Stage Influence Function for Large Language Models via Eigenvalue-Corrected Kronecker-Factored Parameterization
- Title(参考訳): 固有値補正Kronecker-Factoredパラメータ化による大規模言語モデルに対するスケーラブルなマルチステージ影響関数
- Authors: Yuntai Bao, Xuhong Zhang, Tianyu Du, Xinkui Zhao, Jiang Zong, Hao Peng, Jianwei Yin,
- Abstract要約: 事前訓練された大規模言語モデル(LLM)は、一般的に下流タスクに適応するように微調整される。
本稿では,学習前データに対する微調整LDMの属性予測のための多段階影響関数を提案する。
- 参考スコア(独自算出の注目度): 31.379237532476875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained large language models (LLMs) are commonly fine-tuned to adapt to downstream tasks. Since the majority of knowledge is acquired during pre-training, attributing the predictions of fine-tuned LLMs to their pre-training data may provide valuable insights. Influence functions have been proposed as a means to explain model predictions based on training data. However, existing approaches fail to compute ``multi-stage'' influence and lack scalability to billion-scale LLMs. In this paper, we propose the multi-stage influence function to attribute the downstream predictions of fine-tuned LLMs to pre-training data under the full-parameter fine-tuning paradigm. To enhance the efficiency and practicality of our multi-stage influence function, we leverage Eigenvalue-corrected Kronecker-Factored (EK-FAC) parameterization for efficient approximation. Empirical results validate the superior scalability of EK-FAC approximation and the effectiveness of our multi-stage influence function. Additionally, case studies on a real-world LLM, dolly-v2-3b, demonstrate its interpretive power, with exemplars illustrating insights provided by multi-stage influence estimates. Our code is public at https://github.com/colored-dye/multi_stage_influence_function.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)は、一般的に下流タスクに適応するように微調整される。
事前学習中にほとんどの知識が取得されるため、微調整LDMの予測を事前学習データにもたらすことは、貴重な洞察をもたらす可能性がある。
学習データに基づくモデル予測を説明する手段として,影響関数が提案されている。
しかし、既存のアプローチでは ‘multi-stage' の影響を計算できず、数十億の LLM に対するスケーラビリティが欠如している。
本稿では,微調整LDMの下流予測を,全パラメータ微調整パラダイムに基づく事前学習データに属性付ける多段階影響関数を提案する。
多段階影響関数の効率性と実用性を高めるために,固有値補正クロネッカー・ファクター(EK-FAC)パラメタライゼーションを有効近似に活用する。
実験により,EK-FAC近似の優れたスケーラビリティと多段階影響関数の有効性が検証された。
さらに、実世界のLLMである dolly-v2-3b のケーススタディでは、その解釈能力が示され、多段階の影響推定による実証的な洞察が得られた。
私たちのコードはhttps://github.com/color-dye/multi_stage_influence_functionで公開されています。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
我々は,既存の勾配法を改良し,大規模に効果的に機能させる。
我々は、インプロンプトセットとモデルアウトプットをWebベースの可視化ツールとともにリリースし、影響力のある例を探索します。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
これらの課題に対処するための影響関数フレームワークを開発する。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Do Influence Functions Work on Large Language Models? [10.463762448166714]
影響関数は、個々のトレーニングデータポイントがモデルの予測に与える影響を定量化する上で重要である。
我々は,複数のタスクにまたがる影響関数を評価し,ほとんどの設定において不整合なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-09-30T06:50:18Z) - Studying Large Language Model Generalization with Influence Functions [29.577692176892135]
モデルパラメータ(とそれによる出力)は、トレーニングセットにシーケンスが追加された場合、どのように変化するのか?
我々はEigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)近似を用いて、最大52億のパラメータを持つ大規模言語モデル(LLM)まで影響関数をスケールする。
本研究では, LLMの一般化パターンについて検討し, 影響パターンの空間性, スケールによる抽象化の増大, 数学とプログラミングの能力, 言語間一般化, ロールプレイング行動などを検討した。
論文 参考訳(メタデータ) (2023-08-07T04:47:42Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。