論文の概要: HarmTransform: Transforming Explicit Harmful Queries into Stealthy via Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2512.23717v1
- Date: Tue, 09 Dec 2025 17:56:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.116365
- Title: HarmTransform: Transforming Explicit Harmful Queries into Stealthy via Multi-Agent Debate
- Title(参考訳): HarmTransform:マルチエージェントの議論を通じて、明示的なハームフルなクエリをステルスに変換する
- Authors: Shenzhe Zhu,
- Abstract要約: HarmTransformは、有害なクエリをステルス形式に変換し、その基盤となる有害な意図を保存するためのフレームワークである。
実験により、HarmTransformは効率的なクエリ変換を生成する上で、標準ベースラインを大幅に上回っていることが示された。
同時に、我々の分析では、議論は両刃の剣として機能し、変革を鋭くし、ステルスを改善することができるが、トピックシフトや不要な複雑さも導入する可能性がある。
- 参考スコア(独自算出の注目度): 2.2299983745857896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are equipped with safety mechanisms to detect and block harmful queries, yet current alignment approaches primarily focus on overtly dangerous content and overlook more subtle threats. However, users can often disguise harmful intent through covert rephrasing that preserves malicious objectives while appearing benign, which creates a significant gap in existing safety training data. To address this limitation, we introduce HarmTransform, a multi-agent debate framework for systematically transforming harmful queries into stealthier forms while preserving their underlying harmful intent. Our framework leverages iterative critique and refinement among multiple agents to generate high-quality, covert harmful query transformations that can be used to improve future LLM safety alignment. Experiments demonstrate that HarmTransform significantly outperforms standard baselines in producing effective query transformations. At the same time, our analysis reveals that debate acts as a double-edged sword: while it can sharpen transformations and improve stealth, it may also introduce topic shifts and unnecessary complexity. These insights highlight both the promise and the limitations of multi-agent debate for generating comprehensive safety training data.
- Abstract(参考訳): 大きな言語モデル(LLM)は有害なクエリを検出してブロックする安全メカニズムを備えているが、現在のアライメントアプローチは主に過度に危険なコンテンツに焦点を当て、より微妙な脅威を見落としている。
しかし、ユーザーは悪質な目的を保ちながら良心を見せる隠蔽表現によって悪質な意図を偽装することがあるため、既存の安全訓練データに大きなギャップが生じる。
この制限に対処するために、有害なクエリをステルス形式に体系的に変換するマルチエージェントの議論フレームワークであるHarmTransformを導入し、その基盤となる有害な意図を保存する。
本フレームワークは,複数エージェント間の反復的批判と改善を活用し,将来のLCMの安全性向上に使用可能な高品質で有害なクエリ変換を生成する。
実験により、HarmTransformは効率的なクエリ変換を生成する上で、標準ベースラインを大幅に上回っていることが示された。
同時に、我々の分析では、議論は両刃の剣として機能し、変革を鋭くし、ステルスを改善することができるが、トピックシフトや不要な複雑さも導入する可能性がある。
これらの洞察は、総合的な安全トレーニングデータを生成するためのマルチエージェントの議論の約束と限界の両方を強調している。
関連論文リスト
- RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - MOCHA: Are Code Language Models Robust Against Multi-Turn Malicious Coding Prompts? [12.213189431386478]
コード分解攻撃では、悪意のあるコーディングタスクが、安全フィルタを避けるために、一見良質なサブタスクに分解される。
システム評価を容易にするために,単一ターンおよび複数ターンの悪意のあるプロンプトに対して,LLMの堅牢性を評価するために設計された大規模ベンチマークであるベンチマークネームを導入する。
MOCHAの微調整は、符号化能力を維持しながら拒絶率を改善し、重要なことは、外部の敵データセットの堅牢性を、追加の監督なしに最大32.4%の拒絶率で向上させる。
論文 参考訳(メタデータ) (2025-07-25T18:11:10Z) - GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning [43.209846711845536]
現在のアライメント戦略は、キュレートされたデータセットによる監視された安全性の微調整に依存している。
教師付き微調整は,表面テクスチャパターンと安全応答の急激な相関を必然的に強化することを示す。
マシン・アンラーニング(MU)は、教師付き安全微調整の強力な代替手段であることを示す。
論文 参考訳(メタデータ) (2025-03-14T19:52:08Z) - RapGuard: Safeguarding Multimodal Large Language Models via Rationale-aware Defensive Prompting [7.0595410083835315]
RapGuardは、シナリオ固有の安全プロンプトを生成するために、マルチモーダル連鎖推論を使用する新しいフレームワークである。
RapGuardは最先端の安全性能を実現し、応答の品質を低下させることなく有害なコンテンツを著しく削減する。
論文 参考訳(メタデータ) (2024-12-25T08:31:53Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders [5.070104802923903]
UnsafeプロンプトはLarge Language Models (LLM)に重大な脅威をもたらす
本稿では,安全でないプロンプトと区別する文エンコーダの可能性について検討する。
我々は、この能力を測定するために、新しいペアワイズデータセットとカテゴリパーティメトリックを導入します。
論文 参考訳(メタデータ) (2024-07-09T13:35:54Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。