Fugu-MT 論文翻訳(概要): DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints

論文の概要: DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints

arxiv url: http://arxiv.org/abs/2405.19026v2
Date: Fri, 20 Dec 2024 07:37:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:08.4094
Title: DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints
Title（参考訳）: DiveR-CT:Relaxing Constraintsを備えた多言語対応大規模言語モデルアシスタント
Authors: Andrew Zhao, Quentin Xu, Matthieu Lin, Shenzhi Wang, Yong-jin Liu, Zilong Zheng, Gao Huang,
Abstract要約: DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
参考スコア（独自算出の注目度）: 68.82294911302579
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in large language model assistants have made them indispensable, raising significant concerns over managing their safety. Automated red teaming offers a promising alternative to the labor-intensive and error-prone manual probing for vulnerabilities, providing more consistent and scalable safety evaluations. However, existing approaches often compromise diversity by focusing on maximizing attack success rate. Additionally, methods that decrease the cosine similarity from historical embeddings with semantic diversity rewards lead to novelty stagnation as history grows. To address these issues, we introduce DiveR-CT, which relaxes conventional constraints on the objective and semantic reward, granting greater freedom for the policy to enhance diversity. Our experiments demonstrate DiveR-CT's marked superiority over baselines by 1) generating data that perform better in various diversity metrics across different attack success rate levels, 2) better-enhancing resiliency in blue team models through safety tuning based on collected data, 3) allowing dynamic control of objective weights for reliable and controllable attack success rates, and 4) reducing susceptibility to reward overoptimization. Overall, our method provides an effective and efficient approach to LLM red teaming, accelerating real-world deployment.
Abstract（参考訳）: 大規模言語モデルアシスタントの最近の進歩は、それらが不可欠であり、その安全性管理に関する重要な懸念を提起している。自動化されたレッドチームリングは、労働集約的でエラーを起こしやすい手動による脆弱性の調査に代わる有望な代替手段であり、より一貫性があり、スケーラブルな安全性評価を提供する。しかし、既存のアプローチは、攻撃の成功率の最大化に集中することで、多様性を損なうことが多い。さらに、コサインの類似性を歴史的埋め込みから意味多様性の報酬に還元する手法は、歴史が成長するにつれて、新規性の停滞につながる。これらの課題に対処するため,従来の客観的・意味的な報酬に対する制約を緩和し,多様性を高める政策の自由度を高めるDiveR-CTを導入する。我々の実験は、DiveR-CTがベースラインよりも顕著に優れていることを示した。 1)異なる攻撃成功率の様々な多様性指標において、より良いデータを生成する。 2) 収集データに基づく安全チューニングによるブルーチームモデルのレジリエンス向上。 3)信頼性・制御可能な攻撃成功率に対する目標重量の動的制御を可能とし、 4)報酬過小評価に対する感受性の低下。全体として,本手法はLLMレッドチームへの効果的かつ効率的なアプローチを提供し,実世界の展開を加速させる。

関連論文リスト

Beyond the Dirac Delta: Mitigating Diversity Collapse in Reinforcement Fine-Tuning for Versatile Image Generation [51.305316234962554]
textbfDRIFT(textbfDivetextbfRsity-textbfIncentivized Reinforcement textbfFine-textbfTuning for Versatile Image Generation)を提案する。 DRIFTはタスクアライメントとジェネレーションの多様性に関して優れた優位性を達成し、9.08%!sim! 43.46%$多様性等価アライメントレベルの増加と59.65ドルとなる。
論文参考訳（メタデータ） (2026-01-18T13:25:43Z)
Diversifying Counterattacks: Orthogonal Exploration for Robust CLIP Inference [45.723695657400576]
反撃の多様性とカバレッジの向上は、テスト時間防衛における敵の堅牢性向上に不可欠である。直交直交対向攻撃(DOC)は、傾き方向と運動量に基づく更新を組み込むことで、対向最適化を強化する。平均コサイン類似度に基づく指向性感度スコアを,サンプル識別を改善し,反撃強度を適応的に調節することによりDOCを増強する。
論文参考訳（メタデータ） (2025-11-12T07:40:16Z)
Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文参考訳（メタデータ） (2025-09-29T19:32:11Z)
Diffusion-RL Based Air Traffic Conflict Detection and Resolution Method [5.477141500588868]
本稿では,Diffusion-ACという新たな自律的紛争解決フレームワークを提案する。我々のフレームワークは、その方針を値関数で導かれる逆の認知過程としてモデル化し、リッチで高品質でマルチモーダルな行動分布を生成する。大規模なシミュレーション実験により,提案手法は最先端のDRLベンチマークを著しく上回る結果を得た。
論文参考訳（メタデータ） (2025-09-02T23:17:46Z)
DREAM: Scalable Red Teaming for Text-to-Image Generative Systems via Distribution Modeling [23.856811182352992]
テキスト・トゥ・イメージ(T2I)生成モデルは、性や暴力的なイメージなどの有害なコンテンツを生成できる。 Red Teamingは、T2Iシステムから安全でない出力を抽出できる多様なプロンプトを積極的に識別することを目的としている。我々は,与えられたT2Iシステムから様々な問題のあるプロンプトを自動的に発見する,スケーラブルなレッド・チーム・フレームワークであるDREAMを提案する。
論文参考訳（メタデータ） (2025-07-22T08:10:22Z)
Quality-Diversity Red-Teaming: Automated Generation of High-Quality and Diverse Attackers for Large Language Models [34.601888589730194]
本稿では,これらの制約に対処する新しいフレームワークであるQDRTを紹介する。 QDRTは、行動条件付きトレーニングを通じて目標駆動の多様性を実現し、オープンな方法で行動リプレイバッファを実装する。我々の経験的評価は、QDRTがより多種多様で、広範囲のLLMに対してより効果的に攻撃を発生させることを示す。
論文参考訳（メタデータ） (2025-06-08T13:07:41Z)
MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming [38.25556351567948]
textbfMulti-textbfTurn textbfSafety textbfAlignment (urapproach)フレームワーク。レッドチームモデルは、敵のプロンプトを生成するために、思考誘導型マルチラウンドジェイルブレイク攻撃について学習する。敵の反復最適化ステージ、レッドチームモデル、ターゲットモデルは、相互作用におけるそれぞれの能力を継続的に改善します。
論文参考訳（メタデータ） (2025-05-22T08:22:57Z)
Improving the Transferability of Adversarial Examples by Inverse Knowledge Distillation [15.362394334872077]
逆知識蒸留(Inverse Knowledge Distillation, IKD)は, 対向移動性を効果的に向上するように設計されている。 IKDは勾配に基づく攻撃手法を統合し、攻撃勾配の多様性を促進し、特定のモデルアーキテクチャへの過度な適合を緩和する。 ImageNetデータセットの実験は、我々のアプローチの有効性を検証する。
論文参考訳（メタデータ） (2025-02-24T09:35:30Z)
Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction [24.499874512829198]
本研究では, 対角的, きめ細かなリスク分類に基づいて, テストケースの多様性を拡大する自動紅茶造法を提案する。提案手法は,新しい微調整戦略と強化学習技術を活用し,人的手法で多ターン探索を容易にする。
論文参考訳（メタデータ） (2024-09-25T09:44:48Z)
Complexity-Aware Deep Symbolic Regression with Robust Risk-Seeking Policy Gradients [20.941908494137806]
本稿では,データ駆動型数式発見の堅牢性と解釈可能性を高めるための,新しい記号回帰手法を提案する。 DSRは最先端の手法であるDSRの成功にもかかわらず、リカレントニューラルネットワーク上に構築されており、純粋にデータ適合性によってガイドされている。学習性能を向上させるために,トランスフォーマーとブロードスファーストサーチを併用した。
論文参考訳（メタデータ） (2024-06-10T19:29:10Z)
Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文参考訳（メタデータ） (2024-05-28T19:16:17Z)
Ensemble Adversarial Defense via Integration of Multiple Dispersed Low Curvature Models [7.8245455684263545]
本研究では,攻撃伝達性を低減し,アンサンブルの多様性を高めることを目的とする。損失曲率を表す2階勾配を, 対向的強靭性の重要な要因として同定する。本稿では,複数変数の低曲率ネットワークモデルをトレーニングするための新しい正規化器を提案する。
論文参考訳（メタデータ） (2024-03-25T03:44:36Z)
RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文参考訳（メタデータ） (2024-03-19T07:25:02Z)
Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文参考訳（メタデータ） (2023-12-18T05:42:31Z)
Improving Generalization of Alignment with Human Preferences through Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-10-18T13:54:15Z)
Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文参考訳（メタデータ） (2023-03-24T16:03:21Z)
Semi-Supervised Deep Regression with Uncertainty Consistency and Variational Model Ensembling via Bayesian Neural Networks [31.67508478764597]
我々は,半教師付き回帰,すなわち不確実連続変分モデル組立(UCVME)に対する新しいアプローチを提案する。整合性損失は不確実性評価を著しく改善し,不整合回帰の下では,高品質な擬似ラベルをより重要視することができる。実験の結果,本手法は様々なタスクにおける最先端の代替手段よりも優れており,フルラベルを用いた教師付き手法と競合する可能性が示唆された。
論文参考訳（メタデータ） (2023-02-15T10:40:51Z)
Making Substitute Models More Bayesian Can Enhance Transferability of Adversarial Examples [89.85593878754571]
ディープニューラルネットワークにおける敵の例の転送可能性は多くのブラックボックス攻撃の欠如である。我々は、望ましい転送可能性を達成するためにベイズモデルを攻撃することを提唱する。我々の手法は近年の最先端を大きなマージンで上回る。
論文参考訳（メタデータ） (2023-02-10T07:08:13Z)
Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。価値に基づく政策段階の深層強化学習(DRL)について考察する。また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文参考訳（メタデータ） (2021-12-16T16:53:56Z)
Choosing the Best of Both Worlds: Diverse and Novel Recommendations through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。 SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文参考訳（メタデータ） (2021-10-28T13:22:45Z)
Virtual Data Augmentation: A Robust and General Framework for Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。 VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文参考訳（メタデータ） (2021-09-13T09:15:28Z)
DVERGE: Diversifying Vulnerabilities for Enhanced Robust Generation of Ensembles [20.46399318111058]
敵攻撃は、小さな摂動でCNNモデルを誤解させる可能性があるため、同じデータセットでトレーニングされた異なるモデル間で効果的に転送することができる。非破壊的特徴を蒸留することにより,各サブモデルの逆脆弱性を分離するDVERGEを提案する。新たな多様性基準とトレーニング手順により、DVERGEは転送攻撃に対して高い堅牢性を達成することができる。
論文参考訳（メタデータ） (2020-09-30T14:57:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。