論文の概要: Diffusion LLMs are Natural Adversaries for any LLM
- arxiv url: http://arxiv.org/abs/2511.00203v1
- Date: Fri, 31 Oct 2025 19:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.669642
- Title: Diffusion LLMs are Natural Adversaries for any LLM
- Title(参考訳): 拡散 LLM は任意の LLM の自然なアドバーナリーである
- Authors: David Lüdke, Tom Wollschläger, Paul Ungermann, Stephan Günnemann, Leo Schwinn,
- Abstract要約: 資源集約的(逆)な最適化問題を非効率な暗黙的推論タスクに変換する新しいフレームワークを提案する。
我々の中核となる洞察は、事前訓練された非自己回帰的生成LDMは、迅速な探索のための強力なサロゲートとして機能できるということである。
生成したプロンプトは、さまざまなブラックボックスターゲットモデルに対して強い転送可能性を示す、低複雑で多様なジェイルブレイクであることがわかった。
- 参考スコア(独自算出の注目度): 50.88535293540971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel framework that transforms the resource-intensive (adversarial) prompt optimization problem into an \emph{efficient, amortized inference task}. Our core insight is that pretrained, non-autoregressive generative LLMs, such as Diffusion LLMs, which model the joint distribution over prompt-response pairs, can serve as powerful surrogates for prompt search. This approach enables the direct conditional generation of prompts, effectively replacing costly, per-instance discrete optimization with a small number of parallelizable samples. We provide a probabilistic analysis demonstrating that under mild fidelity assumptions, only a few conditional samples are required to recover high-reward (harmful) prompts. Empirically, we find that the generated prompts are low-perplexity, diverse jailbreaks that exhibit strong transferability to a wide range of black-box target models, including robustly trained and proprietary LLMs. Beyond adversarial prompting, our framework opens new directions for red teaming, automated prompt optimization, and leveraging emerging Flow- and Diffusion-based LLMs.
- Abstract(参考訳): 本稿では,資源集約的(逆)な最適化問題を最適化タスクに変換する新しいフレームワークを提案する。
我々の中核的な洞察は、Diffusion LLMsのような事前学習された非自己回帰的LLMは、即時応答対上の結合分布をモデル化し、迅速な探索のための強力なサロゲートとして機能するということである。
このアプローチは直接条件付きプロンプトの生成を可能にし、コストの高いインスタンスごとの離散最適化を少数の並列化可能なサンプルに効果的に置き換える。
本研究では, 軽度の忠実度仮定の下では, 高次(有害な)プロンプトを回復するためには, 条件付きサンプルがわずかに必要であることを示す確率論的解析を行った。
経験的に、生成したプロンプトは低複雑で多様なジェイルブレイクであり、堅牢なトレーニングとプロプライエタリなLLMを含む、幅広いブラックボックスターゲットモデルへの強力な転送可能性を示す。
逆のプロンプト以外にも、我々のフレームワークは、赤いチーム化、自動的なプロンプト最適化、新しいFlow- and DiffusionベースのLLMを活用するための新しい方向を開く。
関連論文リスト
- Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - VERA: Variational Inference Framework for Jailbreaking Large Language Models [15.03256687264469]
最先端のLDMへのAPIのみアクセスは、効果的なブラックボックスジェイルブレイクメソッドの必要性を強調している。
VERA: variational infErence fRamework for jAilbreakingを紹介する。
論文 参考訳(メタデータ) (2025-06-27T22:22:00Z) - Generalists vs. Specialists: Evaluating LLMs on Highly-Constrained Biophysical Sequence Optimization Tasks [37.326754557721586]
大規模言語モデル (LLM) は生体分子最適化問題において有望であることを示す。
LaMBO-2のような特殊なソルバは、効率性ときめ細かい制御を提供するが、より多くのドメインの専門知識を必要とする。
生物物理シーケンス最適化問題の幾何学的構造を捉えた合成テストスイートであるEhrlich関数を導入することで、この問題に対処する。
論文 参考訳(メタデータ) (2024-10-29T17:45:57Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs [30.333277284839053]
大規模言語モデル(LLM)は、高品質な応答を生成することに成功している。
応答品質を向上させる既存の方法は、しばしば即時改善モデルを含む。
我々は、LLMにより効果的な応答を提供するための自己指示型インコンテキスト学習フレームワークを導入する。
論文 参考訳(メタデータ) (2024-09-03T02:42:39Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。