論文の概要: RedRFT: A Light-Weight Benchmark for Reinforcement Fine-Tuning-Based Red Teaming
- arxiv url: http://arxiv.org/abs/2506.04302v1
- Date: Wed, 04 Jun 2025 14:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.342484
- Title: RedRFT: A Light-Weight Benchmark for Reinforcement Fine-Tuning-Based Red Teaming
- Title(参考訳): RedRFT: 強化された微調整ベースのレッドチームのための軽量ベンチマーク
- Authors: Xiang Zheng, Xingjun Ma, Wei-Bin Lee, Cong Wang,
- Abstract要約: Reinforcement Fine-Tuning (RFT) は、既存のレッドチーム技術の中で有望な戦略として登場した。
統一ベンチマークの欠如は、現在のRFTベースのレッドチーム方式を妨げている。
RedRFT は RFT ベースの Red Teaming の実装と評価を簡素化し標準化するために設計された軽量ベンチマークである。
- 参考スコア(独自算出の注目度): 23.53583051503005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Red teaming has proven to be an effective method for identifying and mitigating vulnerabilities in Large Language Models (LLMs). Reinforcement Fine-Tuning (RFT) has emerged as a promising strategy among existing red teaming techniques. However, a lack of a unified benchmark hinders current RFT-based red teaming methods. Implementation details, especially in Proximal Policy Optimization (PPO)-based RFT, significantly affect outcome stability and reproducibility. To address this issue, we introduce RedRFT, a lightweight benchmark designed to simplify and standardize the implementation and evaluation of RFT-based red teaming. RedRFT combines the design strengths of both single-file CleanRL and highly modularized Tianshou, offering high-quality single-file red teaming implementations and modular PPO core components, such as the General Advantage Estimator. It supports a variety of token and sentence diversity metrics, featuring modularized intrinsic reward computation that facilitates plug-and-play experimentation. To clarify their influence on RFT performance, we conducted an extensive ablation study on key components, including Low-Rank Adaptation (LoRA), Kullback-Leibler (KL) divergence, and Lagrange Multiplier. We hope this work contributes to 1) gaining a comprehensive understanding of the implementation nuances of RFT-based red teaming algorithms, and 2) enabling rapid prototyping of innovative features for RFT-based red teaming. Code for the benchmark can be accessed at https://github.com/x-zheng16/RedRFT.git.
- Abstract(参考訳): Red Teamingは、LLM(Large Language Models)の脆弱性を特定し緩和するための効果的な方法であることが証明されている。
Reinforcement Fine-Tuning (RFT) は、既存のレッドチーム技術の中で有望な戦略として登場した。
しかし、統一ベンチマークの欠如は、現在のRFTベースのレッドチーム方式を妨げている。
実装の詳細、特にPPO(Proximal Policy Optimization)ベースのRFTでは、結果の安定性と再現性に大きな影響を与えている。
この問題に対処するために、RFTベースのレッドチーム構成の実装と評価を簡素化し標準化するために設計された軽量ベンチマークであるRedRFTを紹介する。
RedRFTはシングルファイルのCleanRLと高度にモジュール化されたTianshouの両方の設計長所を組み合わせて、高品質なシングルファイルのレッドチーム実装と、General Advantage Estimatorのようなモジュール型のPPOコアコンポーネントを提供する。
様々なトークンと文の多様性のメトリクスをサポートし、モジュール化された本質的な報酬計算を特徴とし、プラグアンドプレイの実験を容易にする。
RFT性能への影響を明らかにするため,Low-Rank Adaptation (LoRA), Kullback-Leibler (KL) divergence, Lagrange Multiplierなどの主要成分について広範囲にわたるアブレーション調査を行った。
この作品が貢献してくれることを願っている。
1)RTTベースのレッドチームアルゴリズムの実装ニュアンスを包括的に理解し、
2) RFTベースのレッドチームのための革新的な機能の迅速なプロトタイピングを可能にする。
ベンチマークのコードはhttps://github.com/x-zheng16/RedRFT.gitで参照できる。
関連論文リスト
- A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - RaSA: Rank-Sharing Low-Rank Adaptation [67.40422142257091]
低ランク適応(LoRA)は大規模言語モデル(LLM)のパラメータ効率の高い微調整に顕著に用いられている。
階層間の部分的なランク共有を活用することで,LoRAの表現能力を高める革新的な拡張であるRan-Sharing Low-Rank Adaptation (RaSA)を導入する。
我々の理論的根拠と実証的なアプローチは、RaSAがLoRAの中核的な利点を維持しているだけでなく、挑戦的なコードや数学タスクのパフォーマンスを大幅に向上していることを示している。
論文 参考訳(メタデータ) (2025-03-16T17:16:36Z) - VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。
また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。
ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文 参考訳(メタデータ) (2024-12-28T07:38:23Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - UniRGB-IR: A Unified Framework for Visible-Infrared Semantic Tasks via Adapter Tuning [19.510261890672165]
我々は、RGB-IRセマンティックタスクのためのスケーラブルで効率的なフレームワークUniRGB-IRを提案する。
本フレームワークは,視覚変換器(ViT)基礎モデル,マルチモーダル特徴プール(SFI)モジュール,補助特徴プール(SFI)モジュールの3つの主要コンポーネントから構成される。
各種RGB-IRセマンティックタスクの実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-04-26T12:21:57Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation [30.797422827190278]
本稿ではロバスト適応法 (RoSA) と呼ばれる新しいPEFT法を提案する。
RoSAは、固定された事前トレーニングされた重みのセットの上に、$textitlow-rank$と$textithighly-sparse$コンポーネントをトレーニングする。
また,RoSAがLoRA,純スパース微調整,代替ハイブリット法を同じパラメータ予算で上回ることを示す。
論文 参考訳(メタデータ) (2024-01-09T17:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。