Fugu-MT 論文翻訳(概要): Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning

論文の概要: Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning

arxiv url: http://arxiv.org/abs/2405.18641v2
Date: Thu, 30 May 2024 20:03:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 19:03:44.651507
Title: Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning
Title（参考訳）: 有害微調整に対する大規模言語モデルの遅延安全アライメント
Authors: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu,
Abstract要約: 安全アライメントを備えた大規模言語モデル(LLM)は、有害なデータと混在するデータセットを微調整することで、脱獄することができる。調整段階の状態を分離して、アライメントとユーザデータセットを最適化することで、脱獄効果を緩和できることを示す。 textbfLazy(textbfi) textbfalignment(textbfLisa)を提案する。
参考スコア（独自算出の注目度）: 7.945893812374361
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies show that Large Language Models (LLMs) with safety alignment can be jail-broken by fine-tuning on a dataset mixed with harmful data. First time in the literature, we show that the jail-broken effect can be mitigated by separating states in the finetuning stage to optimize the alignment and user datasets. Unfortunately, our subsequent study shows that this simple Bi-State Optimization (BSO) solution experiences convergence instability when steps invested in its alignment state is too small, leading to downgraded alignment performance. By statistical analysis, we show that the \textit{excess drift} towards consensus could be a probable reason for the instability. To remedy this issue, we propose \textbf{L}azy(\textbf{i}) \textbf{s}afety \textbf{a}lignment (\textbf{Lisa}), which introduces a proximal term to constraint the drift of each state. Theoretically, the benefit of the proximal term is supported by the convergence analysis, wherein we show that a sufficient large proximal factor is necessary to guarantee Lisa's convergence. Empirically, our results on four downstream finetuning tasks show that Lisa with a proximal term can significantly increase alignment performance while maintaining the LLM's accuracy on the user tasks. Code is available at \url{https://github.com/git-disl/Lisa}.
Abstract（参考訳）: 近年の研究では、有害データと混合したデータセットを微調整することで、安全アライメントを伴うLarge Language Models (LLM) を脱獄することができることが示されている。文献ではじめて、調整段階の状態を分離し、アライメントとユーザデータセットを最適化することで、脱獄効果を緩和できることを示す。残念なことに、その後の研究では、この単純な双状態最適化(BSO)ソリューションは、アライメント状態に投資するステップが小さすぎると収束不安定になり、アライメント性能が低下することを示した。統計的解析により, コンセンサスに対するtextit{excess drift} が不安定性の原因となる可能性が示唆された。この問題を治療するために、各状態のドリフトを制限するための近項を導入する、 \textbf{L}azy(\textbf{i}) \textbf{s}afety \textbf{a}lignment(\textbf{Lisa})を提案する。理論的には、近位項の利点は収束解析によって支えられ、リサの収束を保証するのに十分な大きな近位因子が必要であることを示す。その結果,LLMの精度をユーザタスクに保ちながら,近似項を持つLisaはアライメント性能を著しく向上させることができることがわかった。コードは \url{https://github.com/git-disl/Lisa} で入手できる。

関連論文リスト

TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs [7.125400292079228]
大きな言語モデル(LLM)は、人間の値に合わせるように微調整され、しばしばアライメントドリフトを示す。以前の作業ではアライメント障害が特徴的だったが、これらの障害の根底にあるトレーニングタイムの信念源についてはほとんど知られていない。 TraceAlignは、モデルのトレーニングコーパスの根本原因に安全でない完了をトレースするための統一されたフレームワークである。
論文参考訳（メタデータ） (2025-08-04T05:03:35Z)
Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文参考訳（メタデータ） (2025-06-05T17:59:55Z)
Towards safe Bayesian optimization with Wiener kernel regression [0.6554326244334868]
本稿では、最近提案されたWienerカーネル回帰に基づいて、新しいエラー境界を提案する。比較的穏やかな仮定の下では、提案された誤差境界は、文献に記録された境界よりも厳密であることを示す。提案手法の有効性を示す数値的な例を挙げる。
論文参考訳（メタデータ） (2024-11-04T16:43:16Z)
Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文参考訳（メタデータ） (2024-10-21T21:45:22Z)
Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-08T11:24:59Z)
Robust Barycenter Estimation using Semi-Unbalanced Neural Optimal Transport [84.51977664336056]
我々は,テクストロバスト連続バリセンタを推定するための,新しいスケーラブルなアプローチを提案する。提案手法は$min$-$max$最適化問題であり,テキスト一般コスト関数に適応可能である。
論文参考訳（メタデータ） (2024-10-04T23:27:33Z)
TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models [14.411646409316624]
時系列予測の新しい手法である textbfHierarchical textbfText-textbfFree textbfAlignment (textbfTS-HTFA) を導入する。我々は、QR分解語埋め込みと学習可能なプロンプトに基づいて、ペア化されたテキストデータを適応的な仮想テキストに置き換える。複数の時系列ベンチマークの実験は、HTFAが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2024-09-23T12:57:24Z)
Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文参考訳（メタデータ） (2024-02-19T18:16:51Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
The Poison of Alignment [0.0]
そこで本研究では,アライメントの有無の影響を受け,命令調整モデルの性能に新たな洞察を与える。その結果,様々な推論ベンチマークで得られた微調整モデルの性能が著しく低下することが実証された。
論文参考訳（メタデータ） (2023-08-25T15:51:15Z)
WSPAlign: Word Alignment Pre-training via Large-Scale Weakly Supervised Span Prediction [31.96433679860807]
既存の単語アライメント手法の多くは、手動アライメントデータセットやパラレルコーパスに依存している。我々は正しい、完全に整合した、平行した文の要求を緩和する。次に、このような大規模弱教師付きデータセットを用いて、スパン予測による単語アライメント事前学習を行う。
論文参考訳（メタデータ） (2023-06-09T03:11:42Z)
MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文参考訳（メタデータ） (2022-09-26T12:04:49Z)
The Devil is in the Margin: Margin-based Label Smoothing for Network Calibration [21.63888208442176]
ディープニューラルネットワークの優位な性能にもかかわらず、最近の研究では、それらが十分に校正されていないことが示されている。現状のキャリブレーション損失に対する統一的制約最適化の視点を提供する。我々は不等式制約に基づく単純で柔軟な一般化を提案し、ロジット距離に制御可能なマージンを課す。
論文参考訳（メタデータ） (2021-11-30T14:21:47Z)
Feature Space Targeted Attacks by Statistic Alignment [74.40447383387574]
特徴空間ターゲットは、中間特徴写像を変調して摂動画像を攻撃する。画素ワイドユークリッド距離の現在の選択は、ソースとターゲットの特徴に不合理に空間整合性制約を課すため、不一致を測定することが疑問視されている。本稿では,Pair-wise Alignment AttackとGlobal-wise Alignment Attackという2つの新しい手法を提案する。
論文参考訳（メタデータ） (2021-05-25T03:46:39Z)
Boosting Continuous Sign Language Recognition via Cross Modality Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。クロスモーダル拡張を用いた新しいアーキテクチャを提案する。提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文参考訳（メタデータ） (2020-10-11T15:07:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。