論文の概要: Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following
- arxiv url: http://arxiv.org/abs/2511.10507v1
- Date: Fri, 14 Nov 2025 01:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.902968
- Title: Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following
- Title(参考訳): ルブリック・ベンチマークと強化学習によるLLM教育の促進
- Authors: Yun He, Wenzhe Li, Hejia Zhang, Songlin Li, Karishma Mandyam, Sopan Khosla, Yuanhao Xiong, Nanshu Wang, Selina Peng, Beibin Li, Shengjie Bi, Shishir G. Patil, Qi Qi, Shengyu Feng, Julian Katz-Samuels, Richard Yuanzhe Pang, Sujan Gonugondla, Hunter Lang, Yue Yu, Yundi Qian, Maryam Fazel-Zarandi, Licheng Yu, Amine Benhalloum, Hany Awadalla, Manaal Faruqui,
- Abstract要約: 我々は1,600以上のプロンプトとエキスパートキュレートされたルーリックを備えた総合ベンチマークであるAdvancedIFを紹介する。
本稿では,ルーブリック生成,微調整ルーブリック検証,報酬形成を生かした新しい後学習パイプラインであるRIFL(Rubric-based Instruction-Following Learning)を提案する。
- 参考スコア(独自算出の注目度): 44.80327678249528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in large language models (LLMs) has led to impressive performance on a range of tasks, yet advanced instruction following (IF)-especially for complex, multi-turn, and system-prompted instructions-remains a significant challenge. Rigorous evaluation and effective training for such capabilities are hindered by the lack of high-quality, human-annotated benchmarks and reliable, interpretable reward signals. In this work, we introduce AdvancedIF (we will release this benchmark soon), a comprehensive benchmark featuring over 1,600 prompts and expert-curated rubrics that assess LLMs ability to follow complex, multi-turn, and system-level instructions. We further propose RIFL (Rubric-based Instruction-Following Learning), a novel post-training pipeline that leverages rubric generation, a finetuned rubric verifier, and reward shaping to enable effective reinforcement learning for instruction following. Extensive experiments demonstrate that RIFL substantially improves the instruction-following abilities of LLMs, achieving a 6.7% absolute gain on AdvancedIF and strong results on public benchmarks. Our ablation studies confirm the effectiveness of each component in RIFL. This work establishes rubrics as a powerful tool for both training and evaluating advanced IF in LLMs, paving the way for more capable and reliable AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々なタスクにおいて顕著なパフォーマンスをもたらしている。
このような能力に対する厳格な評価と効果的な訓練は、高品質で人間に通知されたベンチマークと、信頼できる解釈可能な報酬信号の欠如によって妨げられる。
本稿では,1,600以上のプロンプトとエキスパートキュレートされたルーリックを備えた総合ベンチマークであるAdvancedIF(このベンチマークを近くリリースする)を紹介し,複雑なマルチターン,システムレベルの命令に従うLLMの能力を評価する。
さらに、ルーブリック生成、微調整されたルーブリック検証器、報酬形成を活用する新しい後学習パイプラインであるRIFL(Rubric-based Instruction-Following Learning)を提案する。
大規模な実験により、RIFLはLLMの命令追従能力を大幅に改善し、AdvancedIFでは6.7%、公開ベンチマークでは強い結果を得た。
本研究はRIFLにおける各成分の有効性について検証した。
この研究は、LLMにおける高度なIFのトレーニングと評価のための強力なツールとしてルーブリックを確立し、より有能で信頼性の高いAIシステムへの道を開いた。
関連論文リスト
- IF-CRITIC: Towards a Fine-Grained LLM Critic for Instruction-Following Evaluation [87.38454788767545]
本稿では,大規模言語モデルにおける命令追従の評価モデルであるIF-CRITICを提案する。
IF-CRITICが提供するスケーラブルな報酬信号により、LLMは命令追従最適化においてかなりの性能向上を達成することができる。
論文 参考訳(メタデータ) (2025-11-02T17:06:49Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。
DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。
以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:08:11Z) - InFoBench: Evaluating Instruction Following Ability in Large Language
Models [57.27152890085759]
Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。
InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
論文 参考訳(メタデータ) (2024-01-07T23:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。