Fugu-MT 論文翻訳(概要): Studying Large Language Model Generalization with Influence Functions

論文の概要: Studying Large Language Model Generalization with Influence Functions

arxiv url: http://arxiv.org/abs/2308.03296v1
Date: Mon, 7 Aug 2023 04:47:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 15:12:28.137995
Title: Studying Large Language Model Generalization with Influence Functions
Title（参考訳）: 影響関数を用いた大規模言語モデル一般化の研究
Authors: Roger Grosse, Juhan Bae, Cem Anil, Nelson Elhage, Alex Tamkin, Amirhossein Tajdini, Benoit Steiner, Dustin Li, Esin Durmus, Ethan Perez, Evan Hubinger, Kamil\.e Luko\v{s}i\=ut\.e, Karina Nguyen, Nicholas Joseph, Sam McCandlish, Jared Kaplan, Samuel R. Bowman
Abstract要約: モデルパラメータ(とそれによる出力)は、トレーニングセットにシーケンスが追加された場合、どのように変化するのか? 我々はEigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)近似を用いて、最大52億のパラメータを持つ大規模言語モデル(LLM)まで影響関数をスケールする。本研究では, LLMの一般化パターンについて検討し, 影響パターンの空間性, スケールによる抽象化の増大, 数学とプログラミングの能力, 言語間一般化, ロールプレイング行動などを検討した。
参考スコア（独自算出の注目度）: 29.577692176892135
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When trying to gain better visibility into a machine learning model in order to understand and mitigate the associated risks, a potentially valuable source of evidence is: which training examples most contribute to a given behavior? Influence functions aim to answer a counterfactual: how would the model's parameters (and hence its outputs) change if a given sequence were added to the training set? While influence functions have produced insights for small models, they are difficult to scale to large language models (LLMs) due to the difficulty of computing an inverse-Hessian-vector product (IHVP). We use the Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) approximation to scale influence functions up to LLMs with up to 52 billion parameters. In our experiments, EK-FAC achieves similar accuracy to traditional influence function estimators despite the IHVP computation being orders of magnitude faster. We investigate two algorithmic techniques to reduce the cost of computing gradients of candidate training sequences: TF-IDF filtering and query batching. We use influence functions to investigate the generalization patterns of LLMs, including the sparsity of the influence patterns, increasing abstraction with scale, math and programming abilities, cross-lingual generalization, and role-playing behavior. Despite many apparently sophisticated forms of generalization, we identify a surprising limitation: influences decay to near-zero when the order of key phrases is flipped. Overall, influence functions give us a powerful new tool for studying the generalization properties of LLMs.
Abstract（参考訳）: 機械学習モデルにより良い可視性を持たせることで、関連するリスクを理解して軽減しようとすると、潜在的に価値のある証拠は次のようになる。モデルのパラメータ(およびそれゆえその出力)は、与えられたシーケンスがトレーニングセットに追加された場合、どのように変化するか? 影響関数は小さなモデルに対する洞察を生み出すが、逆ヘッセンベクトル積 (IHVP) の計算が困難であるため、大規模言語モデル (LLM) への拡張は困難である。固有値補正 kronecker-factored approximation curvature (ek-fac) 近似を用いて最大52億パラメータのllmまで影響関数をスケールする。我々の実験では、IHVP計算が桁違い高速であるにもかかわらず、EK-FACは従来の影響関数推定器と同様の精度を達成している。本研究では,tf-idfフィルタリングと問合せバッチ処理の2つのアルゴリズム手法について検討した。影響関数を用いて,影響パターンのスパース性,スケールによる抽象化の増大,数学とプログラミングの能力,言語間一般化,ロールプレイング行動など,llmの一般化パターンを調査した。多くの明らかに洗練された一般化形式にもかかわらず、意外な限界を識別する:キーフレーズの順序が反転すると、ほぼゼロに崩壊する。全体として、影響関数は LLM の一般化特性を研究するための強力な新しいツールを与える。

関連論文リスト

Detecting Instruction Fine-tuning Attack on Language Models with Influence Function [6.760293300577228]
インストラクションの微調整攻撃は、モデルアライメントを損なうとともに、現実のデプロイメントにおいてセキュリティリスクを引き起こす。本稿では,影響関数を用いて攻撃を検知・緩和する,シンプルで効果的な手法を提案する。我々は,大規模データセットに対する言語モデル命令の微調整攻撃を検出するための影響関数を初めて適用した。
論文参考訳（メタデータ） (2025-04-12T00:50:28Z)
Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文参考訳（メタデータ） (2024-10-17T17:59:02Z)
Do Influence Functions Work on Large Language Models? [10.463762448166714]
影響関数は、個々のトレーニングデータポイントがモデルの予測に与える影響を定量化することを目的としている。我々は,複数のタスクにまたがる影響関数を評価し,ほとんどの設定において不整合なパフォーマンスを示す。
論文参考訳（メタデータ） (2024-09-30T06:50:18Z)
Large-Scale Targeted Cause Discovery with Data-Driven Learning [66.86881771339145]
本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。ローカル推論戦略を用いることで、我々のアプローチは変数数に線形な複雑さを伴ってスケールし、数千の変数に効率的にスケールアップする。大規模遺伝子制御ネットワークにおける因果関係の同定に優れた性能を示す実験結果が得られた。
論文参考訳（メタデータ） (2024-08-29T02:21:11Z)
Revisit, Extend, and Enhance Hessian-Free Influence Functions [26.105554752277648]
影響関数は、モデルの解釈、サブセットのトレーニングセットの選択などにおけるサンプルの影響を評価する重要なツールとして機能する。本稿では,Trac として知られる特定の有効近似法を再検討する。この方法は、ヘッセン行列の逆を恒等行列で置き換える。
論文参考訳（メタデータ） (2024-05-25T03:43:36Z)
Large Language Models are Biased Reinforcement Learners [0.0]
大規模言語モデル (LLM) は相対値バイアスの行動的シグネチャを示す。計算的認知モデリングにより、LLMの挙動は単純なRLアルゴリズムによってよく記述されていることが明らかになった。
論文参考訳（メタデータ） (2024-05-19T01:43:52Z)
NPEFF: Non-Negative Per-Example Fisher Factorization [52.44573961263344]
エンド・ツー・エンドの微分可能モデルに容易に適用可能な,NPEFFと呼ばれる新しい解釈可能性手法を提案する。我々はNPEFFが言語モデルと視覚モデルの実験を通して解釈可能なチューニングを持つことを実証した。
論文参考訳（メタデータ） (2023-10-07T02:02:45Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
If Influence Functions are the Answer, Then What is the Question? [7.873458431535409]
影響関数は、モデルの学習パラメータに対する1つのトレーニングデータポイントの除去の効果を効率的に推定する。影響推定は線形モデルの残余再トレーニングとよく一致しているが、最近の研究では、ニューラルネットワークではこのアライメントが不十分であることが示されている。
論文参考訳（メタデータ） (2022-09-12T16:17:43Z)
FastIF: Scalable Influence Functions for Efficient Model Interpretation and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。 fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文参考訳（メタデータ） (2020-12-31T18:02:34Z)
Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。影響評価は浅いネットワークではかなり正確ですヘッセン正則化は、高品質な影響推定を得るために重要である。
論文参考訳（メタデータ） (2020-06-25T18:25:59Z)
Explaining Black Box Predictions and Unveiling Data Artifacts through Influence Functions [55.660255727031725]
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。本稿では,代表課題における影響関数と共通単語順応法の比較を行う。我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
論文参考訳（メタデータ） (2020-05-14T00:45:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。