論文の概要: Memorization Dynamics of Fill-in-the-Middle Pretraining
- arxiv url: http://arxiv.org/abs/2605.22981v1
- Date: Thu, 21 May 2026 19:23:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.074426
- Title: Memorization Dynamics of Fill-in-the-Middle Pretraining
- Title(参考訳): ミルイン・ザ・ミドルプレトレーニングの記憶ダイナミクス
- Authors: Tobias von Arx, Tanguy Dieudonné,
- Abstract要約: ファイル・イン・ザ・ミドル(Fill-in-the-middle、FIM)は、因果言語モデルに埋め込む能力を持たせるために広く使われている事前学習目的である。
一致したLlama 3.2モデルとFIMと標準左から右への目標(LTR)を事前学習することで、制御された環境下でのFIMのダイナミクスについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fill-in-the-middle (FIM) is a pretraining objective widely used to equip causal language models with infilling ability, yet its effect on verbatim memorization remains underexplored. We study the memorization dynamics of FIM in a controlled setting by pretraining matched Llama 3.2 models with FIM and standard left-to-right (LTR) objectives on a FineWeb-Gutenberg corpus containing repeated Gutenberg excerpts. With prefix-based probes, FIM more often recovers short or partially matching spans, while LTR more often assigns high confidence to long exact continuations. We observe that verbatim extraction under FIM-training grows approximately linearly with repetitions over the tested range. Evaluating native FIM-format probes reveals that suffix context is not sufficient: verbatim recall under FIM-training remains strongly anchored in prefix context. Our results also show that evaluating only one span length or probing format can miss important nuances in memorization behavior.
- Abstract(参考訳): フィル・イン・ザ・ミドル(Fill-in-the-middle、FIM)は、因果語モデルに埋め込む能力を持たせるために広く使われている事前学習目的である。
グテンベルク抽出を繰り返すFinWeb-Gutenbergコーパス上で,FIMと標準左利得目標(LTR)を事前学習したLlama 3.2モデルの制御条件下でのFIMの記憶力学について検討した。
プレフィックスベースのプローブでは、FIMは短いスパンや部分的に一致するスパンを回復することが多いが、LTRは長い正確な継続に高い信頼を割り当てることが多い。
我々は, FIM訓練による動詞の抽出が, テスト範囲の反復によってほぼ直線的に増加することを観察した。
ネイティブなFIM-formatプローブを評価すると、接尾辞コンテキストが不十分であることが分かる: FIM-trainingの下での動詞的リコールはプレフィックスコンテキストで強く固定されている。
以上の結果から,暗記行動において重要なニュアンスを欠く場合,長さや探索形式が1つしかないことが示唆された。
関連論文リスト
- PDR: A Plug-and-Play Positional Decay Framework for LLM Pre-training Data Detection [30.13331191100816]
大規模言語モデル(LLM)における事前学習データを検出するトレーニングフリーでプラグアンドプレイのフレームワークであるPDRを導入する。
PDRはトークンレベルのスコアを明示的に強調し、初期位置からの異なる信号を増幅し、後の位置からのノイズを抑制する。
論文 参考訳(メタデータ) (2026-01-11T09:32:13Z) - Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings [14.342802193320365]
トレーニング後のLMの位置埋め込み(DroPE)は、3つの重要な理論的および経験的観察によって動機付けられる。
位置埋め込み(PE)は、事前訓練において重要な役割を担い、重要な誘導バイアスを与える。
DroPEは、長いコンテキストの微調整なしに、シームレスなゼロショットコンテキスト拡張をもたらす。
論文 参考訳(メタデータ) (2025-12-13T04:23:47Z) - CAPTAIN: Semantic Feature Injection for Memorization Mitigation in Text-to-Image Diffusion Models [60.610268549138375]
拡散モデルは意図せずトレーニング例を再現し、プライバシーと著作権の懸念を高めることができる。
CAPTAINはトレーニング不要のフレームワークで,聴覚障害時に潜伏した特徴を直接修正することで記憶を緩和する。
論文 参考訳(メタデータ) (2025-12-11T14:01:47Z) - Memories Retrieved from Many Paths: A Multi-Prefix Framework for Robust Detection of Training Data Leakage in Large Language Models [13.249913291727042]
大規模なコーパスでトレーニングされた大規模な言語モデルは、トレーニングデータの冗長な記憶がちで、プライバシーと著作権の重大なリスクが生じる。
マルチメモリ化という新しいフレームワークを紹介します。
我々は、外部の敵探索がそれを引き起こす異なる接頭辞のターゲット数を特定することができれば、シーケンスを記憶として定義することでこれを定量化する。
論文 参考訳(メタデータ) (2025-11-25T19:40:24Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Detecting Unintended Memorization in Language-Model-Fused ASR [10.079200692649462]
LMトレーニングデータからランダムテキストシーケンス(カナリアと呼ぶ)の記憶を検出するためのフレームワークを提案する。
In a production-grade Conformer RNN-T E2E model fused with a Transformer LM, we show that detected memorization of canary from the LM training data of 300M example。
また,プライバシ保護を動機として,拡張段階のLMトレーニングを実施すれば,そのような記憶が大幅に減少することを示す。
論文 参考訳(メタデータ) (2022-04-20T16:35:13Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。