論文の概要: Understanding Verbatim Memorization in LLMs Through Circuit Discovery
- arxiv url: http://arxiv.org/abs/2506.21588v1
- Date: Tue, 17 Jun 2025 20:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.305896
- Title: Understanding Verbatim Memorization in LLMs Through Circuit Discovery
- Title(参考訳): 回路発見によるLCMのバーバティム記憶の理解
- Authors: Ilya Lasy, Peter Knees, Stefan Woltran,
- Abstract要約: LLMにおける記憶機構の解明はいまだに不十分である。
我々は、モデル内の特定の機能を実行する最小の計算部分グラフである変換回路を使用する。
メモリ化を開始する回路は一度開始しても維持でき、メモリ化のみを維持できる回路は開始を誘導できない。
- 参考スコア(独自算出の注目度): 11.007171636579868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Underlying mechanisms of memorization in LLMs -- the verbatim reproduction of training data -- remain poorly understood. What exact part of the network decides to retrieve a token that we would consider as start of memorization sequence? How exactly is the models' behaviour different when producing memorized sentence vs non-memorized? In this work we approach these questions from mechanistic interpretability standpoint by utilizing transformer circuits -- the minimal computational subgraphs that perform specific functions within the model. Through carefully constructed contrastive datasets, we identify points where model generation diverges from memorized content and isolate the specific circuits responsible for two distinct aspects of memorization. We find that circuits that initiate memorization can also maintain it once started, while circuits that only maintain memorization cannot trigger its initiation. Intriguingly, memorization prevention mechanisms transfer robustly across different text domains, while memorization induction appears more context-dependent.
- Abstract(参考訳): LLMにおける暗記のメカニズム、すなわちトレーニングデータの冗長な再現は、いまだに理解されていない。
メモリ化シーケンスの開始として考慮すべきトークンを,ネットワークのどの部分で取得するか?
暗記文を生成する場合と非暗記文を生成する場合とでは、モデルの振る舞いは正確にどう違うのか?
本研究では、モデル内の特定の機能を実行する最小限の計算部分グラフであるトランスフォーマー回路を利用することにより、機械論的解釈可能性の観点からこれらの疑問にアプローチする。
コントラストデータセットを慎重に構築することにより、モデル生成が記憶されたコンテンツから分岐する点を特定し、記憶の2つの異なる側面に責任を負う特定の回路を分離する。
メモリ化を開始する回路は一度開始しても維持でき、メモリ化のみを維持できる回路は開始を誘導できない。
興味深いことに、暗記防止機構は異なるテキストドメイン間で堅牢に移動し、暗記誘導はより文脈に依存しているように見える。
関連論文リスト
- Captured by Captions: On Memorization and its Mitigation in CLIP Models [23.005901198213966]
本稿では,CLIPにおける記憶の形式的定義を提案し,それをCLIPモデルにおける記憶の定量化に利用する。
以上の結果から,CLIPの記憶行動は,指導的パラダイムと自己監督的パラダイムの中間に位置することが示唆された。
テキストエンコーダは画像エンコーダよりも暗記に寄与しており、緩和戦略はテキスト領域に焦点を当てるべきである。
論文 参考訳(メタデータ) (2025-02-11T00:11:13Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - Understanding Transformer Memorization Recall Through Idioms [42.28269674547148]
言語モデルにおける記憶されたシーケンスのリコールを探索し,特徴付けるための,最初の方法論的フレームワークを提供する。
本研究では,モデル内の隠れ表現を,出力確率分布の段階的改善として解釈することにより,内部予測構築過程を解析する。
本研究は,メモリリコールの理解に向けての第一歩を踏み出し,トランスフォーマー記憶の今後の研究のための方法論的基盤を提供する。
論文 参考訳(メタデータ) (2022-10-07T14:45:31Z) - Encoding-based Memory Modules for Recurrent Neural Networks [79.42778415729475]
本稿では,リカレントニューラルネットワークの設計とトレーニングの観点から,記憶サブタスクについて考察する。
本稿では,線形オートエンコーダを組み込んだエンコーディングベースのメモリコンポーネントを特徴とする新しいモデルであるLinear Memory Networkを提案する。
論文 参考訳(メタデータ) (2020-01-31T11:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。