論文の概要: Tracing Knowledge in Language Models Back to the Training Data
- arxiv url: http://arxiv.org/abs/2205.11482v2
- Date: Tue, 24 May 2022 05:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 12:06:01.294412
- Title: Tracing Knowledge in Language Models Back to the Training Data
- Title(参考訳): 学習データに遡る言語モデルにおける知識の追跡
- Authors: Ekin Aky\"urek, Tolga Bolukbasi, Frederick Liu, Binbin Xiong, Ian
Tenney, Jacob Andreas, Kelvin Guu
- Abstract要約: 言語モデルのアサーションをトレーニング例に遡り、これらの予測の証拠を提供する。
我々は、よく理解された情報検索指標を用いて、事実追跡に影響を及ぼす方法を評価する。
- 参考スコア(独自算出の注目度): 39.02793789536856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural language models (LMs) have been shown to memorize a great deal of
factual knowledge. But when an LM generates an assertion, it is often difficult
to determine where it learned this information and whether it is true. In this
paper, we introduce a new benchmark for fact tracing: tracing language models'
assertions back to the training examples that provided evidence for those
predictions. Prior work has suggested that dataset-level influence methods
might offer an effective framework for tracing predictions back to training
data. However, such methods have not been evaluated for fact tracing, and
researchers primarily have studied them through qualitative analysis or as a
data cleaning technique for classification/regression tasks. We present the
first experiments that evaluate influence methods for fact tracing, using
well-understood information retrieval (IR) metrics. We compare two popular
families of influence methods -- gradient-based and embedding-based -- and show
that neither can fact-trace reliably; indeed, both methods fail to outperform
an IR baseline (BM25) that does not even access the LM. We explore why this
occurs (e.g., gradient saturation) and demonstrate that existing influence
methods must be improved significantly before they can reliably attribute
factual predictions in LMs.
- Abstract(参考訳): ニューラルネットワークモデル(LM)は、多くの事実知識を記憶するために示されている。
しかし、lmがアサーションを生成すると、どこでこの情報を学び、それが真かどうかを判断するのは難しい。
本稿では,これらの予測の証拠を提供するトレーニング例に言語モデルのアサーションを遡る,ファクトトレースのための新しいベンチマークを提案する。
以前の研究によると、データセットレベルの影響メソッドは、トレーニングデータへの予測を追跡するための効果的なフレームワークを提供する可能性がある。
しかし、これらの手法は事実追跡では評価されておらず、主に定性的分析や分類・回帰作業のためのデータクリーニング手法として研究されている。
本稿では,情報検索(IR)指標を用いて,事実追跡における影響評価手法を初めて提案する。
グラデーションベースと埋め込みベースという2つの一般的な影響メソッドのファミリを比較すると、どちらも事実追跡が確実にできないことを示します。
この現象がなぜ起こるのか(例えば勾配飽和)を考察し、既存の影響法がLMの事実予測を確実に属性付ける前に著しく改善されなければならないことを示す。
関連論文リスト
- The Mirrored Influence Hypothesis: Efficient Data Influence Estimation
by Harnessing Forward Passes [32.11451526104394]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Pre-training and Diagnosing Knowledge Base Completion Models [58.07183284468881]
我々は,事実の集合から他の集合への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。
主な貢献は、構造化されていないテキストから収集された事実の大規模事前学習を利用する方法である。
得られた事前学習モデルをよりよく理解するために,オープン知識ベースコンプリートのための事前学習モデルの解析のための新しいデータセットを導入する。
論文 参考訳(メタデータ) (2024-01-27T15:20:43Z) - Unlearning Reveals the Influential Training Data of Language Models [37.02159903174132]
本稿では、トレーニングデータセットの影響をトレーニングモデルから学習することによって推定するUnTracを提案する。
我々は,本手法が有毒,偏り,不合理なコンテンツの生成に対する事前学習データセットの影響を評価できるかどうかを実証的に検討する。
論文 参考訳(メタデータ) (2024-01-26T23:17:31Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - An Interpretability Evaluation Benchmark for Pre-trained Language Models [37.16893581395874]
英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。
複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。
各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理整合を忠実性の計量として使う。
論文 参考訳(メタデータ) (2022-07-28T08:28:09Z) - Evaluating Causal Inference Methods [0.4588028371034407]
我々は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入する。
我々の研究は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入している。
論文 参考訳(メタデータ) (2022-02-09T00:21:22Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。