論文の概要: ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System
- arxiv url: http://arxiv.org/abs/2604.18789v1
- Date: Mon, 20 Apr 2026 19:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.461627
- Title: ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System
- Title(参考訳): ARES: ポリシー・リワードシステムの適応的再チーム化とエンドツーエンド修復
- Authors: Jiacheng Liang, Yao Ma, Tharindu Kumarage, Satyapriya Krishna, Rahul Gupta, Kai-Wei Chang, Aram Galstyan, Charith Peris,
- Abstract要約: ヒトフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)の整合の中心である
不完全なリワードモデル(RM)は、安全でない振る舞いをペナルティ化できないと、単一障害点になる可能性がある。
このような二重脆弱性を系統的に発見・緩和するフレームワークであるARESを紹介する。
- 参考スコア(独自算出の注目度): 70.10833169681239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is central to aligning Large Language Models (LLMs), yet it introduces a critical vulnerability: an imperfect Reward Model (RM) can become a single point of failure when it fails to penalize unsafe behaviors. While existing red-teaming approaches primarily target policy-level weaknesses, they overlook what we term systemic weaknesses cases where both the core LLM and the RM fail in tandem. We present ARES, a framework that systematically discovers and mitigates such dual vulnerabilities. ARES employs a ``Safety Mentor'' that dynamically composes semantically coherent adversarial prompts by combining structured component types (topics, personas, tactics, goals) and generates corresponding malicious and safe responses. This dual-targeting approach exposes weaknesses in both the core LLM and the RM simultaneously. Using the vulnerabilities gained, ARES implements a two-stage repair process: first fine-tuning the RM to better detect harmful content, then leveraging the improved RM to optimize the core model. Experiments across multiple adversarial safety benchmarks demonstrate that ARES substantially enhances safety robustness while preserving model capabilities, establishing a new paradigm for comprehensive RLHF safety alignment.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) の整合の中心であるが、重大な脆弱性をもたらす。
既存のレッドチームのアプローチは、主にポリシーレベルの弱点をターゲットにしていますが、中核LLMとRMの両方が失敗するシステム的弱点と呼ばれるものを見落としています。
このような二重脆弱性を系統的に発見・緩和するフレームワークであるARESを紹介する。
ARESは、構造化されたコンポーネントタイプ(トピック、ペルソナ、戦術、目標)を組み合わせて、動的にセマンティック・コヒーレントな敵のプロンプトを構成する「セーフティ・メンター」を採用し、対応する悪意と安全な応答を生成する。
このデュアルターゲットアプローチは、コアLLMとRMの両方の弱点を同時に露呈する。
まずRMを微調整して有害なコンテンツをよりよく検出し、改善されたRMを活用してコアモデルを最適化する。
複数の対向安全ベンチマークの実験により、ARESはモデル能力を維持しながら安全性を著しく向上し、総合的なRLHF安全性アライメントのための新しいパラダイムを確立した。
関連論文リスト
- Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming [64.48633529149579]
本稿では,VLA(Vision-Language-Action)モデルの言語的変異に対する脆弱性を明らかにするための新しいフレームワークを提案する。
本手法は, ストレス試験用VLAエージェントへのスケーラブルなアプローチを示すため, 平均作業成功率を93.33%から5.85%に下げる。
論文 参考訳(メタデータ) (2026-04-07T08:43:36Z) - Robust Multimodal Safety via Conditional Decoding [52.92816441364308]
マルチモーダル大規模言語モデル(MLLM)は、有害なクエリが相互モーダル相互作用を悪用した場合、しばしば安全性の低下を経験する。
本稿では,MLLMの内部表現を利用して応答生成前の二項安全トークンを予測する,シンプルな条件付きデコード戦略であるCASAを提案する。
論文 参考訳(メタデータ) (2026-03-31T23:19:50Z) - Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization [51.12422886183246]
大規模言語モデル(LLM)は、Webサービスにおいて急速に発展し、社会的リスクを増幅しつつ、前例のない能力を提供してきた。
既存の作業は、分離されたジェイルブレイク攻撃または静的防御に重点を置いており、現実世界のWebコンテキストにおける進化する脅威とセーフガードの間の動的な相互作用を無視している。
ACE-Safetyは、2つの重要な革新的手順をシームレスに統合することにより、攻撃と防御モデルを協調的に最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T15:23:41Z) - L2M-AID: Autonomous Cyber-Physical Defense by Fusing Semantic Reasoning of Large Language Models with Multi-Agent Reinforcement Learning (Preprint) [16.291320202524187]
L2M-AIDは多エージェント強化学習を用いた自律型産業防衛のための新しいフレームワークである。
大規模言語モデル(LLM)によって駆動される協調エージェントのチームを編成し、適応的でレジリエンスなセキュリティを実現する。
その結果,L2M-AIDは従来のIDS,ディープラーニング異常検出器,単一エージェントRLベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-10-08T17:46:39Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - PRISM: Robust VLM Alignment with Principled Reasoning for Integrated Safety in Multimodality [41.04710068888387]
PRISM (Principled Reasoning for Integrated Safety in Multimodality) は、視覚言語モデル(VLM)を協調するシステム2のようなフレームワークである。
我々のフレームワークは2つの重要なコンポーネントで構成されている。PRISM-CoTは安全を意識したチェーン・オブ・プリート推論を教えるデータセットであり、PRISM-DPOはモンテカルロ木探索(MCTS)によって生成される。
総合的な評価は、PRISMの有効性を示し、Qwen2-VLのJailbreakV-28Kの0.15%、LLaVA-1.5のVLBreakの以前のベストメソッドよりも90%改善した。
論文 参考訳(メタデータ) (2025-08-26T03:45:19Z) - ALRPHFS: Adversarially Learned Risk Patterns with Hierarchical Fast \& Slow Reasoning for Robust Agent Defense [12.836334933428738]
既存の防御は、有害なユーザ入力や安全でないエージェントの振る舞いによって引き起こされる複雑なセマンティックリスクを捉えるのに苦労する“セーフティチェック(Safety Checks)”に依存している。
我々は新しい防衛フレームワーク ALRPHFS (Adversarially Learned Risk Patterns with Hierarchical Fast & Slow Reasoning) を提案する。
ALRPHFS は,(1) リスクパターンの一般化可能な,バランスのとれたライブラリを反復的に洗練するオフライン対向自己学習ループ,(2) 検出効率と計算効率のバランスをとるオンライン階層型高速・低速推論エンジンの2つのコアコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-05-25T18:31:48Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。