Fugu-MT 論文翻訳(概要): Chained Tuning Leads to Biased Forgetting

論文の概要: Chained Tuning Leads to Biased Forgetting

arxiv url: http://arxiv.org/abs/2412.16469v1
Date: Sat, 21 Dec 2024 03:51:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.934423
Title: Chained Tuning Leads to Biased Forgetting
Title（参考訳）: Chained Tuningがバイアスドフォーミングに
Authors: Megan Ung, Alicia Sun, Samuel J. Bell, Bhaktipriya Radharapu, Levent Sagun, Adina Williams,
Abstract要約: 下流タスクでトレーニングされたモデルは、反対の順序でトレーニングされたモデルよりもはるかに安全チューニングを忘れていることを示す。忘れることが特定のグループの安全情報に悪影響を及ぼすことを示す。
参考スコア（独自算出の注目度）: 20.181135590652985
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are often fine-tuned for use on downstream tasks, though this can degrade capabilities learned during previous training. This phenomenon, often referred to as catastrophic forgetting, has important potential implications for the safety of deployed models. In this work, we first show that models trained on downstream tasks forget their safety tuning to a greater extent than models trained in the opposite order.Second, we show that forgetting disproportionately impacts safety information about certain groups. To quantify this phenomenon, we define a new metric we term biased forgetting. We conduct a systematic evaluation of the effects of task ordering on forgetting and apply mitigations that can help the model recover from the forgetting observed. We hope our findings can better inform methods for chaining the finetuning of LLMs in continual learning settings to enable training of safer and less toxic models.
Abstract（参考訳）: 大規模な言語モデル(LLM)は、ダウンストリームタスクでの使用のために微調整されることが多いが、これは以前のトレーニングで学んだ能力を劣化させる可能性がある。この現象は、しばしば破滅的な忘れ物と呼ばれ、展開されたモデルの安全性に重要な影響を与える可能性がある。本研究は、まず、下流タスクでトレーニングされたモデルが、反対順でトレーニングされたモデルよりもはるかに安全チューニングを忘れていることを示し、また、あるグループの安全情報に不当に影響を及ぼすことを示す。この現象を定量化するために、我々はバイアスド・忘れという新しい指標を定義した。本研究は,タスクオーダリングが忘れることに対する効果を体系的に評価し,モデルが観察した忘れ物から回復するのに役立つ緩和策を適用した。より安全で毒性の低いモデルのトレーニングを可能にするために,LLMの微調整を連続的な学習環境にチェーンする手法を,我々の研究でより効果的に提供できることを期待する。

関連論文リスト

Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [14.779177849006963]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文参考訳（メタデータ） (2025-07-31T21:04:12Z)
CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning [12.293101110323722]
ファインチューニング・アズ・ア・サービス(英語版)は、有害なファインチューニング攻撃に対してモデルを公開する。我々は、選択的な除去ではなく、モデル崩壊を誘発するパラダイムシフトを提案する。この崩壊は、攻撃者が悪用する非常に一般的な機能を直接中和する。
論文参考訳（メタデータ） (2025-05-22T11:47:08Z)
SnatchML: Hijacking ML models without Training Access [5.005171792255858]
我々は、敵が被害者モデルの訓練段階にアクセスできない、推論ハイジャック時の攻撃に対する強力な脅威モデルを考える。我々は、新しいトレーニングフリーモデルハイジャック攻撃であるSnatchMLを提案する。 AWS Sagemakerにデプロイされたモデルに関する我々の結果は、SnatchMLがハイジャックタスクに対して高い精度を提供できることを示した。
論文参考訳（メタデータ） (2024-06-03T18:04:37Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views [28.081794908107604]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文参考訳（メタデータ） (2024-02-07T08:16:40Z)
Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem [12.185261182744377]
本研究は, 強化学習環境においてアクセントを付加した, 伝達不良の原因の1つを概念化したものである。モデルは、微調整の初期段階に訪れない下流タスクの状態部分空間を劣化させる。標準的な知識保持技術が問題を緩和し、事前訓練された能力を最大限に活用できることを示します。
論文参考訳（メタデータ） (2024-02-05T10:30:47Z)
Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective [71.39995120597999]
現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。 CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
論文参考訳（メタデータ） (2023-11-25T06:55:13Z)
Learn from the Past: A Proxy Guided Adversarial Defense Framework with Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。 AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文参考訳（メタデータ） (2023-10-19T13:13:41Z)
Fine-tuning can cripple your foundation model; preserving features may be the solution [87.35911633187204]
タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下する。我々は、下流タスクに関連する新しい概念を学習しながら、モデルが事前学習した知識を保存できる「textitLDIFS$」という新しい微調整手法を提案する。
論文参考訳（メタデータ） (2023-08-25T11:49:51Z)
Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文参考訳（メタデータ） (2023-06-21T05:26:28Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。 RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文参考訳（メタデータ） (2022-07-12T19:34:47Z)
An Empirical Investigation of the Role of Pre-training in Lifelong Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文参考訳（メタデータ） (2021-12-16T19:00:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。