Fugu-MT 論文翻訳(概要): Tracing Knowledge in Language Models Back to the Training Data

論文の概要: Tracing Knowledge in Language Models Back to the Training Data

arxiv url: http://arxiv.org/abs/2205.11482v2
Date: Tue, 24 May 2022 05:19:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-25 12:06:01.294412
Title: Tracing Knowledge in Language Models Back to the Training Data
Title（参考訳）: 学習データに遡る言語モデルにおける知識の追跡
Authors: Ekin Aky\"urek, Tolga Bolukbasi, Frederick Liu, Binbin Xiong, Ian Tenney, Jacob Andreas, Kelvin Guu
Abstract要約: 言語モデルのアサーションをトレーニング例に遡り、これらの予測の証拠を提供する。我々は、よく理解された情報検索指標を用いて、事実追跡に影響を及ぼす方法を評価する。
参考スコア（独自算出の注目度）: 39.02793789536856
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural language models (LMs) have been shown to memorize a great deal of factual knowledge. But when an LM generates an assertion, it is often difficult to determine where it learned this information and whether it is true. In this paper, we introduce a new benchmark for fact tracing: tracing language models' assertions back to the training examples that provided evidence for those predictions. Prior work has suggested that dataset-level influence methods might offer an effective framework for tracing predictions back to training data. However, such methods have not been evaluated for fact tracing, and researchers primarily have studied them through qualitative analysis or as a data cleaning technique for classification/regression tasks. We present the first experiments that evaluate influence methods for fact tracing, using well-understood information retrieval (IR) metrics. We compare two popular families of influence methods -- gradient-based and embedding-based -- and show that neither can fact-trace reliably; indeed, both methods fail to outperform an IR baseline (BM25) that does not even access the LM. We explore why this occurs (e.g., gradient saturation) and demonstrate that existing influence methods must be improved significantly before they can reliably attribute factual predictions in LMs.
Abstract（参考訳）: ニューラルネットワークモデル(LM)は、多くの事実知識を記憶するために示されている。しかし、lmがアサーションを生成すると、どこでこの情報を学び、それが真かどうかを判断するのは難しい。本稿では,これらの予測の証拠を提供するトレーニング例に言語モデルのアサーションを遡る,ファクトトレースのための新しいベンチマークを提案する。以前の研究によると、データセットレベルの影響メソッドは、トレーニングデータへの予測を追跡するための効果的なフレームワークを提供する可能性がある。しかし、これらの手法は事実追跡では評価されておらず、主に定性的分析や分類・回帰作業のためのデータクリーニング手法として研究されている。本稿では,情報検索(IR)指標を用いて,事実追跡における影響評価手法を初めて提案する。グラデーションベースと埋め込みベースという2つの一般的な影響メソッドのファミリを比較すると、どちらも事実追跡が確実にできないことを示します。この現象がなぜ起こるのか(例えば勾配飽和)を考察し、既存の影響法がLMの事実予測を確実に属性付ける前に著しく改善されなければならないことを示す。

関連論文リスト

Learning to Detect Language Model Training Data via Active Reconstruction [65.4791582049743]
textbfActive Data Reconstruction Attack (ADRA)を紹介する。 ADRAはトレーニングを通じて与えられたテキストを再構築するモデルを誘導する。我々のアルゴリズムは、事前学習、後訓練、蒸留データの検出において、既存のMIAよりも一貫して優れています。
論文参考訳（メタデータ） (2026-02-22T03:20:06Z)
Rewriting History: A Recipe for Interventional Analyses to Study Data Effects on Model Behavior [58.58249548116766]
本稿では,学習データと言語モデル(LM)行動の関係を実験的に研究する。データバッチをインターベンションし、そのデータ上でモデルチェックポイントを再トレーニングして、データと振る舞いに関する仮説をテストするための手順を概説する。
論文参考訳（メタデータ） (2025-10-16T03:22:48Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。本稿では,既存の勾配法を改良し,大規模に効果的に機能させる。
論文参考訳（メタデータ） (2024-10-22T20:39:21Z)
Probing Language Models for Pre-training Data Detection [11.37731401086372]
本稿では,モデルの内部アクティベーションを調べることで,事前学習データ検出のための探索手法を提案する。我々の手法はシンプルで効果的であり、より信頼性の高い事前学習データ検出につながる。
論文参考訳（メタデータ） (2024-06-03T13:58:04Z)
Debiasing Machine Unlearning with Counterfactual Examples [31.931056076782202]
我々は、未学習プロセスの背後にある因果要因を分析し、データレベルとアルゴリズムレベルでバイアスを軽減する。バイアスのあるデータセットによって、忘れるべき知識が消去される、介入に基づくアプローチを導入する。本手法は,評価指標に基づく既存の機械学習ベースラインよりも優れる。
論文参考訳（メタデータ） (2024-04-24T09:33:10Z)
Pre-training and Diagnosing Knowledge Base Completion Models [58.07183284468881]
我々は,事実の集合から他の集合への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。主な貢献は、構造化されていないテキストから収集された事実の大規模事前学習を利用する方法である。得られた事前学習モデルをよりよく理解するために,オープン知識ベースコンプリートのための事前学習モデルの解析のための新しいデータセットを導入する。
論文参考訳（メタデータ） (2024-01-27T15:20:43Z)
Unlearning Traces the Influential Training Data of Language Models [31.33791825286853]
アンラーニングは、トレーニングデータセットがモデルの性能に与える影響をトレースする。よりスケーラブルなアプローチであるUnTrac-Invを提案し、テストデータセットを解放し、トレーニングデータセットの未学習モデルを評価する。
論文参考訳（メタデータ） (2024-01-26T23:17:31Z)
Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。我々のアプローチは、意図をモデル化することで受動的データから学習する。実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文参考訳（メタデータ） (2023-04-10T17:59:05Z)
Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文参考訳（メタデータ） (2021-07-05T12:44:39Z)
Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文参考訳（メタデータ） (2021-07-01T09:26:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。