Fugu-MT 論文翻訳(概要): On Effects of Steering Latent Representation for Large Language Model Unlearning

論文の概要: On Effects of Steering Latent Representation for Large Language Model Unlearning

arxiv url: http://arxiv.org/abs/2408.06223v1
Date: Mon, 12 Aug 2024 15:24:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 13:03:23.754701
Title: On Effects of Steering Latent Representation for Large Language Model Unlearning
Title（参考訳）: 大規模言語モデルアンラーニングにおけるステアリング潜在表現の効果について
Authors: Dang Huu-Tien, Trung-Tin Pham, Hoang Thanh-Tung, Naoya Inoue,
Abstract要約: Representation Misdirection for Unlearning (RMU)は、大規模言語モデル(LLM)の学習に有効な方法である。中間層での表現を忘れることによってトークンの信頼性が低下し,LSMが間違った応答やナンセンスな応答を発生させることを示す。我々は、ほとんどのレイヤで非学習を効果的にする、シンプルで効果的な代替手法であるAdaptive RMUを提案する。
参考スコア（独自算出の注目度）: 4.058064008234271
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Representation Misdirection for Unlearning (RMU), which steers model representation in the intermediate layer to a target random representation, is an effective method for large language model (LLM) unlearning. Despite its high performance, the underlying cause and explanation remain underexplored. In this paper, we first theoretically demonstrate that steering forget representations in the intermediate layer reduces token confidence, causing LLMs to generate wrong or nonsense responses. Second, we investigate how the coefficient influences the alignment of forget-sample representations with the random direction and hint at the optimal coefficient values for effective unlearning across different network layers. Third, we show that RMU unlearned models are robust against adversarial jailbreak attacks. Last, our empirical analysis shows that RMU is less effective when applied to the middle and later layers in LLMs. To resolve this drawback, we propose Adaptive RMU -- a simple yet effective alternative method that makes unlearning effective with most layers. Extensive experiments demonstrate that Adaptive RMU significantly improves the unlearning performance compared to prior art while incurring no additional computational cost.
Abstract（参考訳）: Representation Misdirection for Unlearning (RMU)は、中間層におけるモデル表現を対象のランダム表現に操り、大規模言語モデル(LLM)アンラーニングに有効な方法である。高い性能にもかかわらず、根底にある原因と説明は未解明のままである。本稿では,まず,中間層における表現を忘れることによってトークンの信頼度が低下し,LCMが間違った応答やナンセンスな応答を生じさせることを理論的に実証する。第二に、この係数がランダムな方向の誤りサンプル表現のアライメントにどのように影響するかを調査し、異なるネットワーク層をまたがる効果的なアンラーニングのための最適係数値を示唆する。第3に、RMU未学習モデルは敵の脱獄攻撃に対して堅牢であることを示す。最後に,LLMの中間層および後層に適用した場合,RMUは効果が低いことを示す実験的検討を行った。この欠点を解決するために、ほとんどのレイヤで非学習を効果的にする、シンプルで効果的な代替手法であるAdaptive RMUを提案する。大規模な実験により、Adaptive RMUは未学習のパフォーマンスを先行技術に比べて大幅に向上する一方で、追加の計算コストは発生しないことが示された。

関連論文リスト

PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文参考訳（メタデータ） (2025-07-10T16:47:25Z)
Efficient Jailbreaking of Large Models by Freeze Training: Lower Layers Exhibit Greater Sensitivity to Harmful Content [11.626522946410596]
本研究では,大規模言語モデルのパラメータのサンプリングと正規化を行い,パラメータ分布の視覚表現とヒートマップを生成する。このことから,我々は,下層層のみにSupervised Fine-Tuningを選択的に行うフリーズトレーニング戦略を採用した。実験により、この手法は、高いジェイルブレイク成功率と高いハーネススコアを維持しながら、トレーニング時間とGPUメモリ消費を著しく低減することを示した。
論文参考訳（メタデータ） (2025-02-28T11:07:41Z)
Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文参考訳（メタデータ） (2025-02-20T17:51:10Z)
LLM Unlearning via Neural Activation Redirection [24.157334866277534]
線形表現仮説に基づく新しいアンラーニング手法であるLUNARを提案する。 LUNARは最先端の未学習性能と制御性に優れることを示す。
論文参考訳（メタデータ） (2025-02-11T03:23:22Z)
Leveraging the true depth of LLMs [46.81174316936993]
大規模言語モデルは高い計算要求を犠牲にして素晴らしい能力を示す。本研究では,事前学習したLLMの深度を,性能に悪影響を及ぼすことなく低減する方法をいくつか検討する。本稿では,これらを並列に評価可能なペアにグループ化することで,層間の疎結合を利用した新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-02-05T00:26:27Z)
Feasible Learning [78.6167929413604]
本稿では,サンプル中心の学習パラダイムであるFeasible Learning(FL)を紹介する。大規模言語モデルにおける画像分類, 年齢回帰, 好みの最適化といった経験的分析により, FLを用いて訓練したモデルでは, 平均的性能に限界があるものの, ERMと比較して改善された尾の挙動を示しながらデータから学習できることが実証された。
論文参考訳（メタデータ） (2025-01-24T20:39:38Z)
Dissecting Misalignment of Multimodal Large Language Models via Influence Function [12.832792175138241]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。 ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。 ECIFを基盤として,MLLMにおけるデータ評価,誤アライメント検出,誤予測トレースバックタスクなどの一連のアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-11-18T15:45:41Z)
Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。 textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文参考訳（メタデータ） (2024-10-16T08:07:18Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach [18.153641696306707]
本研究では、モデルベース強化学習(MBRL)からインスピレーションを得て、エッジとユーザ機器(UE)間の最適分割点を決定するフレームワークを提案する。報酬代理モデルを導入することで、頻繁な性能評価の計算コストを大幅に削減できる。
論文参考訳（メタデータ） (2024-06-03T09:41:42Z)
Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文参考訳（メタデータ） (2024-01-18T08:12:23Z)
Rényi Divergence Deep Mutual Learning [3.682680183777648]
本稿では,Deep Learning Mutual (DML) を,単純かつ効果的な計算パラダイムとして再考する。より柔軟で限定的なKL発散の代わりにR'enyi発散を提案する。我々の経験的結果は、DMLとR'enyiの発散を併用した利点を示し、モデル一般化のさらなる改善につながった。
論文参考訳（メタデータ） (2022-09-13T04:58:35Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文参考訳（メタデータ） (2021-07-28T05:18:10Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。