論文の概要: IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2508.04632v1
- Date: Wed, 06 Aug 2025 17:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.833858
- Title: IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards
- Title(参考訳): IFDECORATOR: 検証可能なリワードによる強化学習後のラッピング指導
- Authors: Xu Guo, Tianyi Liang, Tong Jian, Xiaogui Yang, Ling-I Wu, Chenhui Li, Zhihui Lu, Qipeng Guo, Kai Chen,
- Abstract要約: Instruct following Decorator(IFDecorator)は、RLVRトレーニングを堅牢でサンプル効率のよいパイプラインにラップするフレームワークである。
我々のQwen2.5-32B-Instruct-IFDecoratorはIFEvalで87.43%の精度を達成し、GPT-4oのようなより大きなプロプライエタリモデルよりも優れている。
私たちのトリップワイヤは、報酬のハッキング率を大幅に低下させています。
- 参考スコア(独自算出の注目度): 22.802937805177773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) improves instruction following capabilities of large language models (LLMs), but suffers from training inefficiency due to inadequate difficulty assessment. Moreover, RLVR is prone to over-optimization, where LLMs exploit verification shortcuts without aligning to the actual intent of user instructions. We introduce Instruction Following Decorator (IFDecorator}, a framework that wraps RLVR training into a robust and sample-efficient pipeline. It consists of three components: (1) a cooperative-adversarial data flywheel that co-evolves instructions and hybrid verifications, generating progressively more challenging instruction-verification pairs; (2) IntentCheck, a bypass module enforcing intent alignment; and (3) trip wires, a diagnostic mechanism that detects reward hacking via trap instructions, which trigger and capture shortcut exploitation behaviors. Our Qwen2.5-32B-Instruct-IFDecorator achieves 87.43% accuracy on IFEval, outperforming larger proprietary models such as GPT-4o. Additionally, we demonstrate substantial improvements on FollowBench while preserving general capabilities. Our trip wires show significant reductions in reward hacking rates. We will release models, code, and data for future research.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の学習能力の向上を図っている。
さらに、RLVRは過度に最適化される傾向があり、LLMはユーザ命令の実際の意図に合わせることなく、検証ショートカットを利用する。
Instruction following Decorator(IFDecorator)は、RLVRトレーニングを堅牢でサンプル効率のよいパイプラインにラップするフレームワークである。
本研究は,(1)指示とハイブリッド検証を共進化させ,段階的に困難な命令検証ペアを生成する協調型データフライホイール,(2)意図のアライメントを強制するバイパスモジュールであるIntentCheck,(3)トラップ命令による報酬ハッキングを検知するトリップワイヤ,の3つのコンポーネントから構成される。
我々のQwen2.5-32B-Instruct-IFDecoratorはIFEvalで87.43%の精度を達成し、GPT-4oのようなより大きなプロプライエタリモデルよりも優れている。
さらに,FollowBenchの汎用性を保ちながら,大幅な改善を示す。
私たちのトリップワイヤは、報酬のハッキング率を大幅に低下させています。
将来の研究のために、モデル、コード、データをリリースします。
関連論文リスト
- CodeBoost: Boosting Code LLMs by Squeezing Knowledge from Code Snippets with RL [28.43882967593511]
コード大言語モデル(LLM)は、効率的で自動化されたコーディングパイプラインを構築するのに欠かせないツールになっている。
既存のモデルは、「ヒューマンインストラクション-ファイナル応答」ペアを用いて汎用LLMから強化学習(RL)を用いて後訓練されるのが一般的である。
我々は,コードスニペットからLLMを純粋に拡張するフレームワークであるCodeBoostを提案する。
論文 参考訳(メタデータ) (2025-08-07T10:31:24Z) - Generalizing Verifiable Instruction Following [44.02178200187706]
人間とAIの相互作用を成功させる重要な要因は、言語モデルが正確に人間の指示に従う能力である。
ほとんどのモデルは、これらの能力をテストするベンチマークから検証可能な制約の小さなセットに強く適合している。
我々は、58の新しい多様で挑戦的なドメイン外制約を一般化した後の正確な命令を評価するために、IFBenchという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-03T17:44:33Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。
ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。
我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文 参考訳(メタデータ) (2025-06-11T17:10:36Z) - KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG [63.82127103851471]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルがより広範な知識ソースにアクセスすることを可能にする。
ノイズの多いコンテンツを処理するために生成モデルの能力を向上させることは、ロバストなパフォーマンスに等しく重要であることを実証する。
本稿では,3つの重要なイノベーションを通じて知識利用を改善するKARE-RAGを提案する。
論文 参考訳(メタデータ) (2025-06-03T06:31:17Z) - Towards Better Instruction Following Retrieval Models [30.99867106106421]
InF-IRは,Instruction-Following IRにおける検索モデルの強化に適した,大規模で高品質なトレーニングコーパスである。
InF-IRは従来のトレーニングペアを38,000以上の表現型命令、クエリ、パス>三つ子に正のサンプルとして拡張する。
命令とクエリの両方を毒殺した後、高度推論モデル(o3-mini)によって厳密に検証し、命令の不正確性を保ちながら意味的妥当性を保証する。
論文 参考訳(メタデータ) (2025-05-27T17:14:37Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Towards Learning Abductive Reasoning using VSA Distributed Representations [56.31867341825068]
本稿では,文脈認識モデルを用いた帰納的ルール学習手法を提案する。
ARLCは、誘引的推論のための、新しくより広く適用可能な訓練目標を特徴としている。
プログラムされた知識の上に実例から漸進的に学習することで,ARLCのポストプログラミングトレーニングに対する堅牢性を示す。
論文 参考訳(メタデータ) (2024-06-27T12:05:55Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Aligned Unsupervised Pretraining of Object Detectors with Self-training [41.03780087924593]
物体検出器の教師なし事前訓練は、近年、物体検出器訓練の重要な要素となっている。
本稿では、この問題を緩和し、3つの単純かつ重要な要素からなるフレームワークを提案する。
当社の戦略は,スクラッチ(背骨を含む)からの事前トレーニングも可能であり,COCOのような複雑な画像にも適用可能であることを示す。
論文 参考訳(メタデータ) (2023-07-28T17:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。