論文の概要: ACE-RL: Adaptive Constraint-Enhanced Reward for Long-form Generation Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.04903v2
- Date: Wed, 10 Sep 2025 04:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 13:12:05.586426
- Title: ACE-RL: Adaptive Constraint-Enhanced Reward for Long-form Generation Reinforcement Learning
- Title(参考訳): ACE-RL:長期化強化学習のための適応的制約強化リワード
- Authors: Jianghao Chen, Wei Sun, Qixiang Yin, Lingxing Kong, Zhixing Tan, Jiajun Zhang,
- Abstract要約: 本稿では,長期化強化学習(ACE-RL)のための適応制約強化報酬を用いたフレームワークを提案する。
ACE-RLはまず、各命令を細粒度で適応的な制約基準のセットに自動的に分解する。
そこで我々は,対応する制約に対する満足度に基づいて,長文応答の質を定量化する報奨機構を設計する。
- 参考スコア(独自算出の注目度): 17.798384102961695
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable progress in long-context understanding, yet they face significant challenges in high-quality long-form generation. Existing studies primarily suffer from two limitations: (1) A heavy reliance on scarce, high-quality long-form response data for supervised fine-tuning (SFT) or for pairwise preference reward in reinforcement learning (RL). (2) Focus on coarse-grained quality optimization dimensions, such as relevance, coherence, and helpfulness, overlooking the fine-grained specifics inherent to diverse long-form generation scenarios. To address this issue, we propose a framework using Adaptive Constraint-Enhanced reward for long-form generation Reinforcement Learning (ACE-RL). ACE-RL first automatically deconstructs each instruction into a set of fine-grained, adaptive constraint criteria by identifying its underlying intents and demands. Subsequently, we design a reward mechanism that quantifies the quality of long-form responses based on their satisfaction over corresponding constraints, converting subjective quality evaluation into constraint verification. Finally, we utilize reinforcement learning to guide models toward superior long-form generation capabilities. Experimental results demonstrate that our ACE-RL framework significantly outperforms existing SFT and RL baselines by 20.70% and 7.32% on WritingBench, and our top-performing model even surpasses proprietary systems like GPT-4o by 7.10%, providing a more effective training paradigm for LLMs to generate high-quality content across diverse long-form generation scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長文理解において顕著な進歩を見せているが、高品質な長文生成において大きな課題に直面している。
既存の研究は、(1)教師付き微調整(SFT)のための希少で高品質な長文応答データ、または強化学習(RL)における相互選好報酬に大きく依存している。
2) 関連性, 一貫性, 有用性などの粗い品質最適化次元に着目し, 多様な長文生成シナリオに固有のきめ細かな特異性を見越す。
この問題に対処するために,長文生成強化学習(ACE-RL)のための適応制約強化報酬(Adaptive Constraint-Enhanced reward)を用いたフレームワークを提案する。
ACE-RLはまず、各命令を、その根底にある意図と要求を特定することによって、細粒度で適応的な制約基準に自動的に分解する。
次に,制約に対する満足度に基づいて長文応答の質を定量化し,主観的品質評価を制約検証に変換する報奨機構を設計する。
最後に,強化学習を利用して,より優れた長文生成能力に向けてモデルを誘導する。
実験の結果,ACE-RL フレームワークは既存の SFT と RL のベースラインを 20.70% と 7.32% で上回り,GPT-4o などのプロプライエタリなシステムを 7.10% で上回り,LLM が様々な長文生成シナリオにまたがって高品質なコンテンツを生成するための,より効果的なトレーニングパラダイムを提供することができた。
関連論文リスト
- Jointly Reinforcing Diversity and Quality in Language Model Generations [64.72289248044514]
大規模言語モデル(LM)のポストトレーニングは、しばしば多様性を犠牲にして正確さと役に立つことを優先する。
DARling(Diversity-Aware Reinforcement Learning)は、応答品質とセマンティック多様性を協調的に最適化するフレームワークである。
論文 参考訳(メタデータ) (2025-09-02T17:38:47Z) - Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning [55.41828729623907]
本稿では,適応型カリキュラム強化学習フレームワーク「Ling-RL: An Adaptive Curriculum Reinforcement Learning」について紹介する。
フレームワークは3つの重要なコンポーネントで構成されている。高い学習可能性を持つサンプルを優先するMargin-aware Data Selection戦略、差別的な学習信号を提供するPairwise Comparison Rewardメカニズム、動的参照スケジューリングアプローチである。
論文 参考訳(メタデータ) (2025-06-06T05:40:39Z) - Reinforced Informativeness Optimization for Long-Form Retrieval-Augmented Generation [77.10390725623125]
LFQA(Long-form Question answering)は、大規模言語モデルに固有の課題を提示する。
RioRAGは、強化情報性最適化を通じて長めのRAGを進化させる新しい強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-05-27T07:34:41Z) - Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning [80.27561080938747]
CANOEは、人間のアノテーションを使わずに、下流のさまざまなタスクにまたがる大きな言語モデルの忠実性の幻覚を減らすためのフレームワークである。
Dual-GRPOはルールベースの強化学習手法であり、合成された短値QAデータから得られる3つのルールベースの報酬を含む。
実験の結果、CANOEは11のタスクにまたがるLLMの忠実さを大幅に改善し、最も進歩したLLMよりも優れていた。
論文 参考訳(メタデータ) (2025-05-22T10:10:07Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - FoRAG: Factuality-optimized Retrieval Augmented Generation for Web-enhanced Long-form Question Answering [11.73887020240588]
本稿では,多面的回答の生成において明確な論理を実現するために,新しいアウトライン強化ジェネレータを提案する。
そこで本研究では,2つの微細なRLHFフレームワークを念頭に設計したファクトリティ最適化手法を提案する。
特に,本手法をLlama2-7B-chatに適用する場合,導出モデルFoRAG-L-7BはWebGPT-175Bを3つの一般的なメトリクスで上回っている。
論文 参考訳(メタデータ) (2024-06-19T19:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。