Fugu-MT 論文翻訳(概要): Get Confused Cautiously: Textual Sequence Memorization Erasure with Selective Entropy Maximization

論文の概要: Get Confused Cautiously: Textual Sequence Memorization Erasure with Selective Entropy Maximization

arxiv url: http://arxiv.org/abs/2408.04983v1
Date: Fri, 9 Aug 2024 10:26:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-12 16:07:28.603091
Title: Get Confused Cautiously: Textual Sequence Memorization Erasure with Selective Entropy Maximization
Title（参考訳）: 混乱を招く:選択エントロピー最大化によるテキストシーケンス記憶消去
Authors: Zhaohan Zhang, Ziquan Liu, Ioannis Patras,
Abstract要約: 大規模言語モデル(LLM)は、トレーニングセットの冗長性からいくつかのテキストシーケンスを暗記し、引用することが発見されている。このTSM(Textual Sequence Memorization)現象は、特定の記憶されたテキストを生成するのを防ぐために、LCM出力の調整を要求される。 TSM消去のための既存の方法は、モデルユーティリティを実質的に損なうことなく、大量の記憶されたサンプルを忘れることができない。
参考スコア（独自算出の注目度）: 17.20276556057748
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have been found to memorize and recite some of the textual sequences from their training set verbatim, raising broad concerns about privacy and copyright issues when using LLMs. This Textual Sequence Memorization (TSM) phenomenon leads to a high demand to regulate LLM output to prevent it from generating certain memorized text to meet user requirements. However, our empirical study reveals that existing methods for TSM erasure fail to forget massive memorized samples without substantially jeopardizing the model utility. To achieve a better trade-off between the effectiveness of TSM erasure and model utility in LLMs, our paper proposes a new framework based on Entropy Maximization with Selective Optimization (EMSO), where the updated weights are chosen with a novel contrastive gradient metric without any participation of additional model or data. Our analysis shows that training with the entropy maximization loss has a more stable optimization process and better keeps model utility than existing methods. The contrastive gradient metric localizes the most influential weight for TSM erasure by taking both the gradient magnitude and direction into consideration. Extensive experiments across three model scales demonstrate that our method excels in handling large-scale forgetting requests while preserving model ability in language generation and reasoning.
Abstract（参考訳）: 大規模言語モデル(LLM)は、彼らのトレーニングセットからいくつかのテキストシーケンスを暗記し、引用することが発見されており、LLMを使用する際のプライバシと著作権の問題に対する広範な懸念を提起している。このTSM(Textual Sequence Memorization)現象は、ユーザ要求を満たすために、特定の記憶されたテキストを生成することを防ぐために、LCM出力を規制することの要求が高くなる。しかし,本研究では,既存のTSM消去法では,モデルの有用性を著しく損なうことなく,大量の記憶されたサンプルを忘れることができないことを実証研究により明らかにした。 LLMにおけるTSM消去の有効性とモデル実用性とのトレードオフを改善するために,選択最適化を用いたエントロピー最大化(EMSO)に基づく新しいフレームワークを提案する。分析の結果,エントロピー最大化損失のトレーニングは,既存の手法よりも安定な最適化プロセスとモデルの有用性が向上していることがわかった。対照的な勾配計量は、勾配の等級と方向の両方を考慮して、TSM消去の最も影響力のある重みを定めている。 3つのモデルスケールにわたる大規模な実験により,言語生成と推論におけるモデル能力を維持しながら,大規模忘れる要求を処理できることが実証された。

関連論文リスト

Unveiling Over-Memorization in Finetuning LLMs for Reasoning Tasks [12.00585546066413]
事前訓練された大言語モデル (LLM) はラベル付きデータで微調整され、人間の値に適合する。本研究では,LLMファインタニングの学習ダイナミクスを推論タスクで研究し,その過記憶現象を明らかにする。記憶過剰なモデルでは、通常のモデルと同等のテスト精度を示すが、頑健さの低下、分布外一般化の低下、生成の多様性の低下に悩まされている。
論文参考訳（メタデータ） (2025-08-06T06:34:12Z)
Test-Time Learning for Large Language Models [33.11605667376906]
大規模言語モデル(LLM)のためのテスト時間学習(TTL)パラダイムを提案する。 LLMはテスト中にラベルなしのテストデータのみを使用してターゲットドメインに動的に適応する。 TLMはドメイン知識適応における元のLLMと比較して少なくとも20%性能が向上することを示す。
論文参考訳（メタデータ） (2025-05-27T02:18:59Z)
SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation [12.838593066237452]
大規模言語モデル(LLM)は、トレーニング中に頻繁にセンシティブな情報を記憶し、公開可能なモデルをデプロイする際にリスクを生じさせる。本稿では, 因果媒介分析と層固有の最適化を組み合わせた, 対象未学習におけるSemEval-2025タスク4の解を提案する。
論文参考訳（メタデータ） (2025-04-17T15:05:40Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。 LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。 LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文参考訳（メタデータ） (2024-11-17T01:16:37Z)
LLM-TS Integrator: Integrating LLM for Enhanced Time Series Modeling [5.853711797849859]
天気予報や異常検出などの動的システムでは時系列モデリングが不可欠である。近年,大規模言語モデル(LLM)をTSモデリングに利用し,その強力なパターン認識機能を活用している。
論文参考訳（メタデータ） (2024-10-21T20:29:46Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [27.991291785091736]
本研究は、不要なデータの影響を取り除くことを目的として、大規模言語モデル(LLM)アンラーニングの問題を研究する。未学習の需要が増えているにもかかわらず、技術的に地平線を画した最適化フレームワークは欠如している。我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルへの依存をなくすことによる「単純さ」がアンラーニングの恩恵をもたらすことを示した。
論文参考訳（メタデータ） (2024-10-09T17:58:12Z)
Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文参考訳（メタデータ） (2024-10-07T23:38:58Z)
Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。我々はtextbfUntextbflearning (SPUL) のための textbfSoft textbfPrompting フレームワークを提案する。本研究では,提案手法の厳密な評価を行い,SPULが実用性と忘れとのトレードオフを大幅に改善できることを示す。
論文参考訳（メタデータ） (2024-06-17T19:11:40Z)
Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression [40.4998607679863]
大規模言語モデル(LLM)は、ドメイン固有のデータに対して、事前訓練後または監督された微調整後(SFT)において、破滅的な忘れ込みに悩まされることが多い。本稿では,TG-SFTに着目し,SFTデータを合成的に生成する。
論文参考訳（メタデータ） (2024-06-17T09:17:40Z)
SLMRec: Empowering Small Language Models for Sequential Recommendation [38.51895517016953]
シーケンシャルレコメンデーションタスクでは、過去のインタラクションを考慮して、ユーザが対話する可能性のある次の項目を予測する。最近の研究は、LCMがシーケンシャルレコメンデーションシステムに与える影響を実証している。 LLM の巨大なサイズのため、現実のプラットフォームに LLM ベースのモデルを適用するのは非効率で実用的ではない。
論文参考訳（メタデータ） (2024-05-28T07:12:06Z)
Temporal Scaling Law for Large Language Models [57.83580734589091]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文参考訳（メタデータ） (2024-04-27T05:49:11Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。