論文の概要: Functional Homotopy: Smoothing Discrete Optimization via Continuous Parameters for LLM Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2410.04234v1
- Date: Sat, 5 Oct 2024 17:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 13:31:47.733596
- Title: Functional Homotopy: Smoothing Discrete Optimization via Continuous Parameters for LLM Jailbreak Attacks
- Title(参考訳): 関数ホモトピー: LLM ジェイルブレイク攻撃に対する連続パラメータによる平滑な離散最適化
- Authors: Zi Wang, Divyam Anshumaan, Ashish Hooda, Yudong Chen, Somesh Jha,
- Abstract要約: 本研究では,機能的ホモトピー法と呼ばれる新しい最適化手法を提案する。
一連の簡単な最適化問題を構築することにより、確立されたホモトピー法から導かれる原理を用いて、これらの問題を反復的に解決する。
この手法を大規模言語モデル(LLM)に対するジェイルブレイク攻撃合成に適用し,既存の手法よりも20%~30%の精度向上を実現した。
- 参考スコア(独自算出の注目度): 24.935016443423233
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Optimization methods are widely employed in deep learning to identify and mitigate undesired model responses. While gradient-based techniques have proven effective for image models, their application to language models is hindered by the discrete nature of the input space. This study introduces a novel optimization approach, termed the \emph{functional homotopy} method, which leverages the functional duality between model training and input generation. By constructing a series of easy-to-hard optimization problems, we iteratively solve these problems using principles derived from established homotopy methods. We apply this approach to jailbreak attack synthesis for large language models (LLMs), achieving a $20\%-30\%$ improvement in success rate over existing methods in circumventing established safe open-source models such as Llama-2 and Llama-3.
- Abstract(参考訳): 最適化手法は、望ましくないモデル応答を特定し緩和するためにディープラーニングに広く用いられている。
勾配に基づく手法は画像モデルに有効であることが証明されているが、言語モデルへの応用は入力空間の離散的な性質によって妨げられている。
本研究は,モデル学習と入力生成の関数的双対性を生かした,新しい最適化手法である \emph{functional homotopy} 法を提案する。
一連の簡単な最適化問題を構築することにより、確立されたホモトピー法から導かれる原理を用いて、これらの問題を反復的に解決する。
Llama-2 や Llama-3 のような確立された安全なオープンソースモデルを回避するために,既存の手法よりも 20 %~ 30 % の成果率向上を実現した。
関連論文リスト
- One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Solving Inverse Problems with Model Mismatch using Untrained Neural Networks within Model-based Architectures [14.551812310439004]
モデルベースアーキテクチャでは,各インスタンスの計測領域におけるデータの一貫性を一致させるために,トレーニングされていないフォワードモデル残差ブロックを導入する。
提案手法は,パラメータ感受性が低く,追加データを必要としない統一解を提供し,前方モデルの同時適用と1パスの再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-07T19:02:13Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Resource-Adaptive Newton's Method for Distributed Learning [16.588456212160928]
本稿では,Newtonの手法の限界を克服するRANLというアルゴリズムを提案する。
従来の一階法とは異なり、RANLは問題の条件数から著しく独立している。
論文 参考訳(メタデータ) (2023-08-20T04:01:30Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Uncertainty Modelling in Risk-averse Supply Chain Systems Using
Multi-objective Pareto Optimization [0.0]
サプライチェーンモデリングにおける困難なタスクの1つは、不規則な変動に対して堅牢なモデルを構築することである。
我々は、不確実性を扱うためのパレート最適化(Pareto Optimization)という新しい手法を導入し、これらの不確実性のエントロピーをアプリオリ仮定の下で明示的にモデル化することで拘束する。
論文 参考訳(メタデータ) (2020-04-24T21:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。