論文の概要: A Fictional Q&A Dataset for Studying Memorization and Knowledge Acquisition
- arxiv url: http://arxiv.org/abs/2506.05639v1
- Date: Thu, 05 Jun 2025 23:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.267556
- Title: A Fictional Q&A Dataset for Studying Memorization and Knowledge Acquisition
- Title(参考訳): 記憶・知識獲得のためのQ&Aデータセット
- Authors: John Kirchenbauer, Janny Mongkolsupawan, Yuxin Wen, Tom Goldstein, Daphne Ippolito,
- Abstract要約: 本稿では,事実記憶と動詞列記憶という2つのプロセスを研究するための新しいデータセットを提案する。
データセットは、フィクションイベントに関する合成生成されたWebテキストのようなドキュメントと、イベントに関する質問と回答のペアで構成されている。
我々は、架空の出来事に関する合成データが、異なる形態の記憶を分解する上でどのように有効であるかを示す訓練実験を行う。
- 参考スコア(独自算出の注目度): 69.6105757233119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When language models are trained on textual data, they acquire both knowledge about the structure of language as well as knowledge of facts about the world. At inference time, their knowledge of facts can be leveraged to solve interesting problems and perform useful knowledge work for users. It is well known that language models can verbatim memorize long sequences from their training data. However, it is much less well understood how language models memorize facts seen during training. In this work, we propose a new dataset to specifically empower researchers to study the dual processes of fact memorization and verbatim sequence memorization. The dataset consists of synthetically-generated, webtext-like documents about fictional events, as well as question-answer pairs about the events. We conduct training experiments showing how synthetic data about fictional events can be effective in teasing apart different forms of memorization. We also document the challenges in effectively building realistic, fictional synthetic data.
- Abstract(参考訳): 言語モデルがテキストデータに基づいて訓練される場合、言語の構造に関する知識と、世界に関する事実に関する知識の両方を取得する。
推測時には、その事実に関する知識を利用して、興味深い問題を解決し、ユーザにとって有用な知識作業を行うことができる。
言語モデルがトレーニングデータから長いシーケンスを暗記できることはよく知られている。
しかし、言語モデルがトレーニング中に見られる事実を記憶する方法については、あまり理解されていない。
本研究では,研究者に対して,事実記憶と動詞列記憶という2つのプロセスを研究するための新たなデータセットを提案する。
データセットは、フィクションイベントに関する合成生成されたWebテキストのようなドキュメントと、イベントに関する質問と回答のペアで構成されている。
我々は、架空の出来事に関する合成データが、異なる形態の記憶を分解する上でどのように有効であるかを示す訓練実験を行う。
また、現実的で架空の合成データを効果的に構築する上での課題についても文書化しています。
関連論文リスト
- How do language models learn facts? Dynamics, curricula and hallucinations [22.693703460345873]
大規模言語モデルは事前学習中に膨大な知識を蓄積するが、この買収を統括する力学はいまだに理解されていない。
本研究は,人工的事実記憶課題における言語モデルの学習力学について検討する。
論文 参考訳(メタデータ) (2025-03-27T16:43:45Z) - Learning and Unlearning of Fabricated Knowledge in Language Models [16.971082623826263]
共通知識と矛盾する事実が数万のトレーニングステップで記憶されていることを示す。
LMにおける知識共用事実の影響は,長期にわたる可能性があるが,マルチステップスパース更新の新たな適用により,ほぼ消去可能であることを示す。
論文 参考訳(メタデータ) (2024-10-29T05:33:14Z) - Co-occurrence is not Factual Association in Language Models [19.708303468664088]
言語モデルは,真の事実関連性ではなく,単語共起統計の学習に偏りがあることが示される。
本稿では,言語モデルにおける事実関連性の学習を改善するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-09-21T08:13:16Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Physics of Language Models: Part 3.1, Knowledge Storage and Extraction [51.68385617116854]
大規模言語モデル(LLM)は膨大な量の世界の知識を格納することができ、しばしば質問応答によって抽出できる。
モデルが知識を抽出する能力と,トレーニングデータの多様な多様性尺度との間には,強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-09-25T17:37:20Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。