Fugu-MT 論文翻訳(概要): The Mosaic Memory of Large Language Models

論文の概要: The Mosaic Memory of Large Language Models

arxiv url: http://arxiv.org/abs/2405.15523v2
Date: Thu, 15 May 2025 10:18:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 22:29:05.968503
Title: The Mosaic Memory of Large Language Models
Title（参考訳）: 大規模言語モデルのモザイク記憶
Authors: Igor Shilov, Matthieu Meeus, Yves-Alexandre de Montjoye,
Abstract要約: 我々は,Large Language Models (LLM) が類似のシーケンスから情報を組み立てることで記憶することを示す。モザイク記憶を示す主要なLCMを示し, ファジィ複製は, 正確に複製され, 修正された配列の0.8まで記憶に寄与し, 記憶に大きく寄与する。
参考スコア（独自算出の注目度）: 7.405082919188384
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As Large Language Models (LLMs) become widely adopted, understanding how they learn from, and memorize, training data becomes crucial. Memorization in LLMs is widely assumed to only occur as a result of sequences being repeated in the training data. Instead, we show that LLMs memorize by assembling information from similar sequences, a phenomena we call mosaic memory. We show major LLMs to exhibit mosaic memory, with fuzzy duplicates contributing to memorization as much as 0.8 of an exact duplicate and even heavily modified sequences contributing substantially to memorization. Despite models display reasoning capabilities, we somewhat surprisingly show memorization to be predominantly syntactic rather than semantic. We finally show fuzzy duplicates to be ubiquitous in real-world data, untouched by deduplication techniques. Taken together, our results challenge widely held beliefs and show memorization to be a more complex, mosaic process, with real-world implications for privacy, confidentiality, model utility and evaluation.
Abstract（参考訳）: 大規模言語モデル(LLM)が広く採用されるにつれて、どのように学習し、記憶するかを理解することで、トレーニングデータが重要になります。 LLMの記憶は、トレーニングデータで繰り返し行われるシーケンスの結果のみ起こると広く考えられている。代わりに、LLMは、モザイクメモリと呼ばれる、類似したシーケンスからの情報を組み立てることで記憶する。モザイク記憶を示す主要なLCMを示し, ファジィ複製は, 正確に複製され, 修正された配列の0.8まで記憶に寄与し, 記憶に大きく寄与する。モデルが推論能力を示すにもかかわらず、暗記はセマンティックではなく、主に統語的であることを示す。最終的に、ファジィ複製が実世界のデータでユビキタスであることが示され、重複の解法が触れられません。まとめると、われわれの結果は広く支持されている信念に挑戦し、記憶がより複雑でモザイクなプロセスであることを示す。

関連論文リスト

Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs [14.925879394978852]
ロートラーニング(英: Rote learning)は、反復に基づく暗記技法である。本研究では,ロート記憶データからLCMを学習して一般化できることを実証する。
論文参考訳（メタデータ） (2025-07-29T15:28:41Z)
Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文参考訳（メタデータ） (2025-03-15T10:19:15Z)
Memorize or Generalize? Evaluating LLM Code Generation with Code Rewriting [54.48306552577881]
大規模な言語モデル(LLM)は、主にメモリ化(トレーニングデータの大きな部分を複製または再利用する)と一般化(Generalization)を併用している、と我々は主張する。既存の評価は、表面/構造的類似性を無視し、繰り返しコードの良質な再利用を有害なリコールと記憶タスクの正しさで混同する。そこで我々は,2つの信号を組み合わせた正規化スコアである覚書リスク指標(MRI)を提案する。 (i) モデルが元の地平解とどのように類似しているか, (ii) 元のタスクから書き換えされたタスクにどの程度の性能が低下するか。
論文参考訳（メタデータ） (2025-03-04T05:39:24Z)
DiffusionAttacker: Diffusion-Driven Prompt Manipulation for LLM Jailbreak [51.8218217407928]
大規模言語モデル (LLM) は、慎重に入力を行うと有害なコンテンツを生成する可能性がある。本稿では,拡散モデルにインスパイアされたジェイルブレイク書き換えのためのエンドツーエンド生成手法であるDiffusionAttackerを紹介する。
論文参考訳（メタデータ） (2024-12-23T12:44:54Z)
CopyLens: Dynamically Flagging Copyrighted Sub-Dataset Contributions to LLM Outputs [39.425944445393945]
CopyLensは,著作権付きデータセットが大規模言語モデルの応答に与える影響を分析するフレームワークである。実験の結果、CopyLensは提案したベースラインよりも効率と精度を15.2%向上し、エンジニアリング手法より58.7%、OOD検出ベースラインより0.21AUC向上した。
論文参考訳（メタデータ） (2024-10-06T11:41:39Z)
Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文参考訳（メタデータ） (2024-07-25T07:10:31Z)
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文参考訳（メタデータ） (2024-07-20T21:24:40Z)
PlagBench: Exploring the Duality of Large Language Models in Plagiarism Generation and Detection [26.191836276118696]
46.5Kの合成テキストペアのデータセットである textbfsf PlagBench を紹介する。 PlagBenchは、きめ細かい自動評価と人間のアノテーションを組み合わせることで検証される。 GPT-3.5 Turbo は GPT-4 Turbo と比較してテキストの複雑さを著しく増大させることなく高品質なパラフレーズや要約を生成できることを示す。
論文参考訳（メタデータ） (2024-06-24T03:29:53Z)
A Multi-Perspective Analysis of Memorization in Large Language Models [10.276594755936529]
大規模言語モデル(LLM)は様々な分野で前例のない性能を示す。 LLMはそれらをトレーニングするのと同じコンテンツを生成することができる。この研究は、様々な観点から記憶を包括的に議論した。
論文参考訳（メタデータ） (2024-05-19T15:00:50Z)
On the Effect of (Near) Duplicate Subwords in Language Modelling [43.18042176382878]
ほぼ重複したサブワードがLMトレーニング効率に及ぼす影響について検討する。完全に複製された環境でトレーニングを行う場合、LMには約17%のデータが必要であることが分かりました。副語重複はLM訓練効率に悪影響を及ぼすが、自然に重複の近くで起こることは予想されるほどは似ていないかもしれない。
論文参考訳（メタデータ） (2024-04-09T17:57:29Z)
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-05T19:32:01Z)
FKA-Owl: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs [48.32113486904612]
本稿では,FKA-Owlを提案する。FKA-Owlは,偽情報を利用した大規模視覚言語モデル(LVLM)の拡張のためのフレームワークである。パブリックベンチマークの実験では、FKA-Owlは従来の手法よりも優れたクロスドメイン性能を達成している。
論文参考訳（メタデータ） (2024-03-04T12:35:09Z)
Copyright Traps for Large Language Models [6.902279764206365]
我々は著作権トラップを用いて,大規模言語モデルにおける著作権コンテンツの使用を検出することを提案する。 1.3Bモデルをスクラッチからトレーニングし、オリジナルコンテンツ(ブック)にトラップを挿入します。直観とは裏腹に,従来の手法では,中長のトラップ文の繰り返し(100)が検出できないことが示されている。
論文参考訳（メタデータ） (2024-02-14T18:09:53Z)
SoK: Memorization in General-Purpose Large Language Models [25.448127387943053]
大規模言語モデル(LLM)は、無数のアプリケーションが開発中で、目覚ましいペースで進んでいる。 LLMはトレーニングデータの短い秘密を記憶できるだけでなく、さまざまな方法でテキストで表現できる事実や書体スタイルといった概念を記憶することもできる。本稿では,文章,事実,アイデア,アルゴリズム,書式,分布特性,アライメント目標を網羅したLLMにおける記憶のための分類法を提案する。
論文参考訳（メタデータ） (2023-10-24T14:25:53Z)
Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文参考訳（メタデータ） (2023-10-10T15:41:26Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)
Mitigating the Learning Bias towards Repetition by Self-Contrastive Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。トークンレベルの反復確率の過大評価は学習バイアスに起因している。 LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文参考訳（メタデータ） (2023-07-04T07:53:55Z)
Understanding and Mitigating Copying in Diffusion Models [53.03978584040557]
安定拡散のような拡散モデルによって生成される画像は、ますます広まっている。最近の研究や訴訟でも、これらのモデルがトレーニングデータを複製する傾向にあることが示されている。
論文参考訳（メタデータ） (2023-05-31T17:58:02Z)
Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。 LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。本稿では,LLMの研究への3つの貢献について述べる。
論文参考訳（メタデータ） (2023-04-25T01:47:05Z)
Memorization Without Overfitting: Analyzing the Training Dynamics of Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文参考訳（メタデータ） (2022-05-22T07:43:50Z)
Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文参考訳（メタデータ） (2022-02-15T18:48:31Z)
Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文参考訳（メタデータ） (2021-12-24T04:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。