論文の概要: Rewriting History: A Recipe for Interventional Analyses to Study Data Effects on Model Behavior
- arxiv url: http://arxiv.org/abs/2510.14261v1
- Date: Thu, 16 Oct 2025 03:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.702037
- Title: Rewriting History: A Recipe for Interventional Analyses to Study Data Effects on Model Behavior
- Title(参考訳): 歴史の書き直し:モデル行動に対するデータの影響を研究するためのインターベンショナル分析のためのレシピ
- Authors: Rahul Nadkarni, Yanai Elazar, Hila Gonen, Noah A. Smith,
- Abstract要約: 本稿では,学習データと言語モデル(LM)行動の関係を実験的に研究する。
データバッチをインターベンションし、そのデータ上でモデルチェックポイントを再トレーニングして、データと振る舞いに関する仮説をテストするための手順を概説する。
- 参考スコア(独自算出の注目度): 58.58249548116766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an experimental recipe for studying the relationship between training data and language model (LM) behavior. We outline steps for intervening on data batches -- i.e., ``rewriting history'' -- and then retraining model checkpoints over that data to test hypotheses relating data to behavior. Our recipe breaks down such an intervention into stages that include selecting evaluation items from a benchmark that measures model behavior, matching relevant documents to those items, and modifying those documents before retraining and measuring the effects. We demonstrate the utility of our recipe through case studies on factual knowledge acquisition in LMs, using both cooccurrence statistics and information retrieval methods to identify documents that might contribute to knowledge learning. Our results supplement past observational analyses that link cooccurrence to model behavior, while demonstrating that extant methods for identifying relevant training documents do not fully explain an LM's ability to correctly answer knowledge questions. Overall, we outline a recipe that researchers can follow to test further hypotheses about how training data affects model behavior. Our code is made publicly available to promote future work.
- Abstract(参考訳): 本稿では,学習データと言語モデル(LM)行動の関係を実験的に研究する。
データバッチのインターベンション -- すなわち ‘rewriting history'’ -- の手順を概説し、そのデータ上でモデルチェックポイントをトレーニングして、データと振る舞いに関する仮説をテストする。
提案手法は,モデル行動を測定するベンチマークから評価項目を選択すること,関連する文書をそれらの項目に適合させること,それらの文書を再トレーニングし,評価する前に修正すること,などの段階に分類する。
我々は,知識学習に寄与する可能性のある文書を特定するために,共起統計と情報検索手法の両方を用いて,LMにおける事実知識獲得のケーススタディを通じて,レシピの有用性を実証する。
本研究は,モデル行動と共起関係を関連づけた過去の観察分析を補完するとともに,関連文書を同定する既存の手法が,知識質問に正しく答えるLMの能力を完全に説明できないことを示すものである。
全体として、トレーニングデータがモデル行動に与える影響に関するさらなる仮説をテストするために、研究者が従うことができるレシピを概説する。
私たちのコードは、今後の作業を促進するために公開されています。
関連論文リスト
- Extracting Training Data from Document-Based VQA Models [67.1470112451617]
VLM(Vision-Language Models)は、文書ベースの視覚質問回答において顕著な進歩を遂げている(つまり、画像として提供される入力文書の内容に関する問い合わせに応答する)。
これらのモデルでは、関連する視覚情報が削除された場合でも、トレーニングサンプルに対する応答を記憶し、それらをリグルジタイズすることができる。
これには、トレーニングセットで繰り返し繰り返されるパーソナライズ可能な情報が含まれており、これらのモデルが機密情報を漏らし、したがってプライバシーリスクを引き起こす可能性があることを示している。
論文 参考訳(メタデータ) (2024-07-11T17:44:41Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Tracing Knowledge in Language Models Back to the Training Data [39.02793789536856]
言語モデルのアサーションをトレーニング例に遡り、これらの予測の証拠を提供する。
我々は、よく理解された情報検索指標を用いて、事実追跡に影響を及ぼす方法を評価する。
論文 参考訳(メタデータ) (2022-05-23T17:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。