Fugu-MT 論文翻訳(概要): Positional Fragility in LLMs: How Offset Effects Reshape Our Understanding of Memorization Risks

論文の概要: Positional Fragility in LLMs: How Offset Effects Reshape Our Understanding of Memorization Risks

arxiv url: http://arxiv.org/abs/2505.13171v2
Date: Wed, 28 May 2025 15:39:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 15:04:28.047539
Title: Positional Fragility in LLMs: How Offset Effects Reshape Our Understanding of Memorization Risks
Title（参考訳）: LLMにおける位置不安定性 : オフセット効果が覚醒リスクの理解をいかに変えるか
Authors: Yixuan Xu, Antoni-Joan Solergibert i Llaquet, Antoine Bosselut, Imanol Schlag,
Abstract要約: 文脈ウィンドウの先頭から引き出された短い接頭辞が,動詞の暗記を最も強く引き起こすことを示す。センシティブなデータをコンテキストウィンドウに深くシフトさせることは,抽出可能な記憶と変性の両方を抑制することを示す。
参考スコア（独自算出の注目度）: 22.636913794637437
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are known to memorize parts of their training data, posing risk of copyright violations. To systematically examine this risk, we pretrain language models (1B/3B/8B) from scratch on 83B tokens, mixing web-scale data with public domain books used to simulate copyrighted content at controlled frequencies at lengths at least ten times longer than prior work. We thereby identified the offset effect, a phenomenon characterized by two key findings: (1) verbatim memorization is most strongly triggered by short prefixes drawn from the beginning of the context window, with memorization decreasing counterintuitively as prefix length increases; and (2) a sharp decline in verbatim recall when prefix begins offset from the initial tokens of the context window. We attribute this to positional fragility: models rely disproportionately on the earliest tokens in their context window as retrieval anchors, making them sensitive to even slight shifts. We further observe that when the model fails to retrieve memorized content, it often produces degenerated text. Leveraging these findings, we show that shifting sensitive data deeper into the context window suppresses both extractable memorization and degeneration. Our results suggest that positional offset is a critical and previously overlooked axis for evaluating memorization risks, since prior work implicitly assumed uniformity by probing only from the beginning of training sequences.
Abstract（参考訳）: 大規模な言語モデルでは、トレーニングデータの一部を記憶することが知られており、著作権侵害のリスクがある。このリスクを体系的に検証するために,83Bトークンのスクラッチから1B/3B/8Bの言語モデルを事前訓練し,Webスケールデータとパブリックドメインの書籍を混合し,前処理よりも少なくとも10倍長い制御周波数で著作権コンテンツをシミュレートした。その結果,(1) 文脈ウィンドウの先頭から引き出された短い接頭辞によって,(1) 単語の暗記が強く引き起こされる現象,(2) 文脈ウィンドウの初期トークンから接頭辞が始まると動詞の暗記が急激に減少する現象,の2つの主要な知見を特徴とするオフセット効果を同定した。モデルは、検索アンカーとして、コンテキストウィンドウの初期のトークンに不均等に依存するため、わずかなシフトにも敏感です。さらに、モデルが記憶されたコンテンツの検索に失敗すると、しばしば生成されたテキストが生成されることを観察する。これらの知見を活かして、センシティブなデータをコンテキストウィンドウに深くシフトさせることは、抽出可能な記憶と変性の両方を抑制することを示す。以上の結果から, 位置オフセットは, トレーニングシーケンスの開始からのみ探索することで, 暗黙的に一様性を仮定するため, 暗記リスクを評価するための重要な軸であり, 従来見過ごされていた軸であることが示唆された。

関連論文リスト

Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed [26.985672667560717]
データプライバシと知的財産権に関する懸念は、トレーニングデータを必然的に複製する可能性があるため、依然として残っている。近年の緩和努力は、複製を誘発する原因となる重量を特定して刈り取ることに重点を置いている。プルーニング後も、入力プロンプトのテキスト埋め込みに対する微調整は、データ複製を再トリガーするのに十分であることを示す。
論文参考訳（メタデータ） (2025-07-22T15:02:38Z)
ExpShield: Safeguarding Web Text from Unauthorized Crawling and Language Modeling Exploitation [17.71790411163849]
そこで本研究では,非知覚的テキスト摂動によるサンプル固有の記憶を緩和する,能動的自己防衛機構であるExpShiledを提案する。当社のアプローチでは、オリジナルの可読性を維持しながら外部とのコラボレーションは必要ありません。プライバシーのバックドアがあっても、MIA(Community Inference Attack)のAUCは0.95から0.55に低下し、インスタンスエクスプロイトは0に近づいた。
論文参考訳（メタデータ） (2024-12-30T17:52:02Z)
Unlocking Memorization in Large Language Models with Dynamic Soft Prompting [66.54460367290146]
大規模言語モデル(LLM)は、要約、質問応答、翻訳などの自然言語処理(NLP)タスクに革命をもたらした。 LLMはトレーニングデータを記憶する傾向があるため、重大なセキュリティリスクを生じ、プライバシー侵害や著作権侵害につながる可能性がある。動的,プレフィックスに依存したソフトプロンプトを用いたLLM記憶推定手法を提案する。
論文参考訳（メタデータ） (2024-09-20T18:56:32Z)
Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文参考訳（メタデータ） (2024-07-31T16:13:29Z)
Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文参考訳（メタデータ） (2024-07-25T07:10:31Z)
Uncovering Latent Memories: Assessing Data Leakage and Memorization Patterns in Frontier AI Models [7.50189359952191]
本研究は,初対面後に記憶されないシーケンスをトレーニング中に「発見」できることを示す。潜在記憶の存在は、記憶されたシーケンスがモデルの最終的なチェックポイントに隠される可能性があるため、データのプライバシの課題となる。我々は,クロスエントロピー損失を利用した診断試験を開発し,高い精度で潜時記憶配列を明らかにする。
論文参考訳（メタデータ） (2024-06-20T17:56:17Z)
Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文参考訳（メタデータ） (2023-10-10T15:41:26Z)
Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文参考訳（メタデータ） (2023-07-10T08:03:41Z)
Mitigating Approximate Memorization in Language Models via Dissimilarity Learned Policy [0.0]
大規模言語モデル(LLM)は大量のデータに基づいて訓練される。 LLMは、トレーニングデータの一部を記憶し、相手が適切にプロンプトすると、それらのデータを冗長に出力することを示した。
論文参考訳（メタデータ） (2023-05-02T15:53:28Z)
Unintended Memorization and Timing Attacks in Named Entity Recognition Models [5.404816271595691]
ユーザ文書中の機密情報を識別するためのブラックボックスサービスとして,NERモデルが利用可能である場合について検討する。 spaCyから事前訓練されたNERモデルを更新することにより、これらのモデルに対する2つの異なるメンバシップ攻撃を実演する。
論文参考訳（メタデータ） (2022-11-04T03:32:16Z)
Preventing Verbatim Memorization in Language Models Gives a False Sense of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文参考訳（メタデータ） (2022-10-31T17:57:55Z)
Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文参考訳（メタデータ） (2022-02-15T18:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。