論文の概要: Tracing Knowledge in Language Models Back to the Training Data
- arxiv url: http://arxiv.org/abs/2205.11482v1
- Date: Mon, 23 May 2022 17:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 19:32:12.948558
- Title: Tracing Knowledge in Language Models Back to the Training Data
- Title(参考訳): 学習データに遡る言語モデルにおける知識の追跡
- Authors: Ekin Aky\"urek, Tolga Bolukbasi, Frederick Liu, Binbin Xiong, Ian
Tenney, Jacob Andreas, Kelvin Guu
- Abstract要約: 言語モデルのアサーションをトレーニング例に遡り、これらの予測の証拠を提供する。
我々は、よく理解された情報検索指標を用いて、事実追跡に影響を及ぼす方法を評価する。
- 参考スコア(独自算出の注目度): 39.02793789536856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural language models (LMs) have been shown to memorize a great deal of
factual knowledge. But when an LM generates an assertion, it is often difficult
to determine where it learned this information and whether it is true. In this
paper, we introduce a new benchmark for fact tracing: tracing language models'
assertions back to the training examples that provided evidence for those
predictions. Prior work has suggested that dataset-level \emph{influence
methods} might offer an effective framework for tracing predictions back to
training data. However, such methods have not been evaluated for fact tracing,
and researchers primarily have studied them through qualitative analysis or as
a data cleaning technique for classification/regression tasks. We present the
first experiments that evaluate influence methods for fact tracing, using
well-understood information retrieval (IR) metrics. We compare two popular
families of influence methods -- gradient-based and embedding-based -- and show
that neither can fact-trace reliably; indeed, both methods fail to outperform
an IR baseline (BM25) that does not even access the LM. We explore \emph{why}
this occurs (e.g., gradient saturation) and demonstrate that existing influence
methods must be improved significantly before they can reliably attribute
factual predictions in LMs.
- Abstract(参考訳): ニューラルネットワークモデル(LM)は、多くの事実知識を記憶するために示されている。
しかし、lmがアサーションを生成すると、どこでこの情報を学び、それが真かどうかを判断するのは難しい。
本稿では,これらの予測の証拠を提供するトレーニング例に言語モデルのアサーションを遡る,ファクトトレースのための新しいベンチマークを提案する。
以前の研究によると、データセットレベルの \emph{influence methods} は、予測をトレーニングデータに遡る効果的なフレームワークを提供するかもしれない。
しかし、これらの手法は事実追跡では評価されておらず、主に定性的分析や分類・回帰作業のためのデータクリーニング手法として研究されている。
本稿では,情報検索(IR)指標を用いて,事実追跡における影響評価手法を初めて提案する。
グラデーションベースと埋め込みベースという2つの一般的な影響メソッドのファミリを比較すると、どちらも事実追跡が確実にできないことを示します。
この現象(例えば勾配飽和)を探索し、既存の影響法がLMの事実予測を確実に帰属させる前に著しく改善されなければならないことを示す。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
本稿では,既存の勾配法を改良し,大規模に効果的に機能させる。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Probing Language Models for Pre-training Data Detection [11.37731401086372]
本稿では,モデルの内部アクティベーションを調べることで,事前学習データ検出のための探索手法を提案する。
我々の手法はシンプルで効果的であり、より信頼性の高い事前学習データ検出につながる。
論文 参考訳(メタデータ) (2024-06-03T13:58:04Z) - Debiasing Machine Unlearning with Counterfactual Examples [31.931056076782202]
我々は、未学習プロセスの背後にある因果要因を分析し、データレベルとアルゴリズムレベルでバイアスを軽減する。
バイアスのあるデータセットによって、忘れるべき知識が消去される、介入に基づくアプローチを導入する。
本手法は,評価指標に基づく既存の機械学習ベースラインよりも優れる。
論文 参考訳(メタデータ) (2024-04-24T09:33:10Z) - Pre-training and Diagnosing Knowledge Base Completion Models [58.07183284468881]
我々は,事実の集合から他の集合への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。
主な貢献は、構造化されていないテキストから収集された事実の大規模事前学習を利用する方法である。
得られた事前学習モデルをよりよく理解するために,オープン知識ベースコンプリートのための事前学習モデルの解析のための新しいデータセットを導入する。
論文 参考訳(メタデータ) (2024-01-27T15:20:43Z) - Unlearning Traces the Influential Training Data of Language Models [31.33791825286853]
アンラーニングは、トレーニングデータセットがモデルの性能に与える影響をトレースする。
よりスケーラブルなアプローチであるUnTrac-Invを提案し、テストデータセットを解放し、トレーニングデータセットの未学習モデルを評価する。
論文 参考訳(メタデータ) (2024-01-26T23:17:31Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。