論文の概要: Reinforcement Learning with Backtracking Feedback
- arxiv url: http://arxiv.org/abs/2602.08377v1
- Date: Mon, 09 Feb 2026 08:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.126838
- Title: Reinforcement Learning with Backtracking Feedback
- Title(参考訳): バックトラックフィードバックによる強化学習
- Authors: Bilgehan Sel, Vaishakh Keshava, Phillip Wallis, Lukas Rutishauser, Ming Jin, Dingcheng Li,
- Abstract要約: フィードバックフィードバックを用いた強化学習(RLBF)を紹介する。
このフレームワークは、BSAFEのような事前の手法に進化する。
RLBFは様々なベンチマークやモデルスケールでの攻撃成功率を大幅に低下させることを示す。
- 参考スコア(独自算出の注目度): 12.680874918250069
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Addressing the critical need for robust safety in Large Language Models (LLMs), particularly against adversarial attacks and in-distribution errors, we introduce Reinforcement Learning with Backtracking Feedback (RLBF). This framework advances upon prior methods, such as BSAFE, by primarily leveraging a Reinforcement Learning (RL) stage where models learn to dynamically correct their own generation errors. Through RL with critic feedback on the model's live outputs, LLMs are trained to identify and recover from their actual, emergent safety violations by emitting an efficient "backtrack by x tokens" signal, then continuing generation autoregressively. This RL process is crucial for instilling resilience against sophisticated adversarial strategies, including middle filling, Greedy Coordinate Gradient (GCG) attacks, and decoding parameter manipulations. To further support the acquisition of this backtracking capability, we also propose an enhanced Supervised Fine-Tuning (SFT) data generation strategy (BSAFE+). This method improves upon previous data creation techniques by injecting violations into coherent, originally safe text, providing more effective initial training for the backtracking mechanism. Comprehensive empirical evaluations demonstrate that RLBF significantly reduces attack success rates across diverse benchmarks and model scales, achieving superior safety outcomes while critically preserving foundational model utility.
- Abstract(参考訳): 大規模言語モデル(LLM)における堅牢な安全性,特に敵攻撃や不分配エラーに対する重要なニーズに対処するために,バックトラックフィードバックを用いた強化学習(RLBF)を導入する。
このフレームワークは、主に強化学習(RL)の段階を利用して、モデルが自身の生成エラーを動的に修正することを学ぶことによって、BSAFEのような以前の手法に進化する。
RLを通じて、モデルのライブ出力に対する批判的なフィードバックにより、LLMは、効率的な"xトークンによるバックトラック"信号を出力し、自動回帰的に生成し、実際の緊急安全違反を識別し、回復するように訓練される。
このRLプロセスは、中間充填、グレディ座標勾配(GCG)攻撃、デコードパラメータ操作など、高度な敵戦略に対するレジリエンスの注入に不可欠である。
さらに,このバックトラック能力の獲得を支援するため,拡張されたスーパービジョンファインチューニング(SFT)データ生成戦略(BSAFE+)を提案する。
本手法は, 従来のデータ生成手法を改良し, 一貫性のあるテキストに違反を注入し, バックトラッキング機構のより効果的な初期訓練を実現する。
総合的な経験的評価により、RLBFは様々なベンチマークやモデルスケールでの攻撃成功率を著しく低下させ、基礎モデルユーティリティを批判的に保存しつつ、優れた安全性を達成できることが示されている。
関連論文リスト
- Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Deep Leakage with Generative Flow Matching Denoiser [54.05993847488204]
再建プロセスに先立って生成フローマッチング(FM)を組み込んだ新しい深部リーク攻撃(DL)を導入する。
当社のアプローチは、ピクセルレベル、知覚的、特徴に基づく類似度測定において、最先端の攻撃よりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-21T14:51:01Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Rethinking Deep Alignment Through The Lens Of Incomplete Learning [14.306119791052575]
自己回帰訓練中の位置依存的勾配弱化は信号減衰を引き起こし,不完全安全性学習につながることを示す。
不完全な安全学習の計算指標として,基本条件付きトークンを導入する。
Llama と Qwen モデルファミリ間の実験的評価により, 対向ロバスト性は劇的に向上した。
論文 参考訳(メタデータ) (2025-11-15T10:53:03Z) - Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models [33.214586668992965]
検証可能な報酬(RLVR)による強化学習は、数学的およびマルチモーダル推論において驚くべき成果を上げている。
汎用知識のための動的客観的リウェイトを用いたRECAP-aリプレイ戦略を提案する。
本手法はエンド・ツー・エンドであり,既存のRLVRパイプラインに適用可能である。
論文 参考訳(メタデータ) (2025-10-24T19:08:48Z) - Large Reasoning Models Learn Better Alignment from Flawed Thinking [56.08883934423522]
大規模推論モデル(LRM)は、最終的な答えを生成する前に構造化チェーン・オブ・シント(CoT)を生成することで「考える」。
本稿では,Regressed Learning (RL) 手法であるRECAPを提案する。
論文 参考訳(メタデータ) (2025-10-01T14:15:43Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - RL as Regressor: A Reinforcement Learning Approach for Function Approximation [0.0]
強化学習(RL)問題としてフレーミング回帰を提案する。
モデルの予測をアクションとして扱い、予測誤差に基づいてカスタム報酬信号を定義することでこれを実証する。
我々は,RLフレームワークが回帰問題をうまく解決するだけでなく,目的の定義や学習プロセスの指導において柔軟性も向上することを示した。
論文 参考訳(メタデータ) (2025-07-31T21:39:24Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Robust Reinforcement Learning Objectives for Sequential Recommender Systems [7.44049827436013]
我々は、報酬の形で直接ユーザーフィードバックを取り入れ、ユーザのパーソナライズを高めるレコメンデーションシステムを開発する。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペース、十分な報酬信号を持つデータセットの不足など、課題が提示される。
これらの課題に対して、より効果的な解決策を提供するための拡張された方法論を導入します。
論文 参考訳(メタデータ) (2023-05-30T08:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。