Fugu-MT 論文翻訳(概要): Understanding Verbatim Memorization in LLMs Through Circuit Discovery

論文の概要: Understanding Verbatim Memorization in LLMs Through Circuit Discovery

arxiv url: http://arxiv.org/abs/2506.21588v1
Date: Tue, 17 Jun 2025 20:14:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-07 02:47:44.305896
Title: Understanding Verbatim Memorization in LLMs Through Circuit Discovery
Title（参考訳）: 回路発見によるLCMのバーバティム記憶の理解
Authors: Ilya Lasy, Peter Knees, Stefan Woltran,
Abstract要約: LLMにおける記憶機構の解明はいまだに不十分である。我々は、モデル内の特定の機能を実行する最小の計算部分グラフである変換回路を使用する。メモリ化を開始する回路は一度開始しても維持でき、メモリ化のみを維持できる回路は開始を誘導できない。
参考スコア（独自算出の注目度）: 11.007171636579868
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Underlying mechanisms of memorization in LLMs -- the verbatim reproduction of training data -- remain poorly understood. What exact part of the network decides to retrieve a token that we would consider as start of memorization sequence? How exactly is the models' behaviour different when producing memorized sentence vs non-memorized? In this work we approach these questions from mechanistic interpretability standpoint by utilizing transformer circuits -- the minimal computational subgraphs that perform specific functions within the model. Through carefully constructed contrastive datasets, we identify points where model generation diverges from memorized content and isolate the specific circuits responsible for two distinct aspects of memorization. We find that circuits that initiate memorization can also maintain it once started, while circuits that only maintain memorization cannot trigger its initiation. Intriguingly, memorization prevention mechanisms transfer robustly across different text domains, while memorization induction appears more context-dependent.
Abstract（参考訳）: LLMにおける暗記のメカニズム、すなわちトレーニングデータの冗長な再現は、いまだに理解されていない。メモリ化シーケンスの開始として考慮すべきトークンを,ネットワークのどの部分で取得するか? 暗記文を生成する場合と非暗記文を生成する場合とでは、モデルの振る舞いは正確にどう違うのか? 本研究では、モデル内の特定の機能を実行する最小限の計算部分グラフであるトランスフォーマー回路を利用することにより、機械論的解釈可能性の観点からこれらの疑問にアプローチする。コントラストデータセットを慎重に構築することにより、モデル生成が記憶されたコンテンツから分岐する点を特定し、記憶の2つの異なる側面に責任を負う特定の回路を分離する。メモリ化を開始する回路は一度開始しても維持でき、メモリ化のみを維持できる回路は開始を誘導できない。興味深いことに、暗記防止機構は異なるテキストドメイン間で堅牢に移動し、暗記誘導はより文脈に依存しているように見える。

関連論文リスト

Captured by Captions: On Memorization and its Mitigation in CLIP Models [23.005901198213966]
本稿では,CLIPにおける記憶の形式的定義を提案し,それをCLIPモデルにおける記憶の定量化に利用する。以上の結果から,CLIPの記憶行動は,指導的パラダイムと自己監督的パラダイムの中間に位置することが示唆された。テキストエンコーダは画像エンコーダよりも暗記に寄与しており、緩和戦略はテキスト領域に焦点を当てるべきである。
論文参考訳（メタデータ） (2025-02-11T00:11:13Z)
Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文参考訳（メタデータ） (2024-07-25T07:10:31Z)
A Multi-Perspective Analysis of Memorization in Large Language Models [10.276594755936529]
大規模言語モデル(LLM)は様々な分野で前例のない性能を示す。 LLMはそれらをトレーニングするのと同じコンテンツを生成することができる。この研究は、様々な観点から記憶を包括的に議論した。
論文参考訳（メタデータ） (2024-05-19T15:00:50Z)
PARMESAN: Parameter-Free Memory Search and Transduction for Dense Prediction Tasks [5.5127111704068374]
この研究は、トランスダクティブ推論によるディープラーニングの柔軟性に対処する。我々は,高密度予測タスクを解くためにメモリモジュールを活用するスケーラブルな手法であるPARMESANを提案する。提案手法は,一般的なアーキテクチャと互換性があり,標準で1D,2D,3Dグリッドベースのデータに転送する。
論文参考訳（メタデータ） (2024-03-18T12:55:40Z)
Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文参考訳（メタデータ） (2023-10-10T15:41:26Z)
Preventing Verbatim Memorization in Language Models Gives a False Sense of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文参考訳（メタデータ） (2022-10-31T17:57:55Z)
Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。重要なことは、情報組織が記憶の2つの形態を指していることである。
論文参考訳（メタデータ） (2022-10-17T20:15:24Z)
Understanding Transformer Memorization Recall Through Idioms [42.28269674547148]
言語モデルにおける記憶されたシーケンスのリコールを探索し,特徴付けるための,最初の方法論的フレームワークを提供する。本研究では,モデル内の隠れ表現を,出力確率分布の段階的改善として解釈することにより,内部予測構築過程を解析する。本研究は,メモリリコールの理解に向けての第一歩を踏み出し,トランスフォーマー記憶の今後の研究のための方法論的基盤を提供する。
論文参考訳（メタデータ） (2022-10-07T14:45:31Z)
Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文参考訳（メタデータ） (2021-12-24T04:20:57Z)
Encoding-based Memory Modules for Recurrent Neural Networks [79.42778415729475]
本稿では,リカレントニューラルネットワークの設計とトレーニングの観点から,記憶サブタスクについて考察する。本稿では,線形オートエンコーダを組み込んだエンコーディングベースのメモリコンポーネントを特徴とする新しいモデルであるLinear Memory Networkを提案する。
論文参考訳（メタデータ） (2020-01-31T11:14:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。