論文の概要: ARES: Automated Rubric Synthesis for Scalable LLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.23454v1
- Date: Fri, 22 May 2026 10:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.305091
- Title: ARES: Automated Rubric Synthesis for Scalable LLM Reinforcement Learning
- Title(参考訳): ARES: スケーラブルLLM強化学習のためのルーブリック自動合成
- Authors: Xiaoyuan Li, Keqin Bao, Moxin Li, Yubo Ma, Yichang Zhang, Wenjie Wang, Fuli Feng, Dayiheng Liu,
- Abstract要約: 本稿では,ルーリックベースのRLデータを大規模に自動構築するフレームワークであるARESを提案する。
ドメインラベルとペルソナ情報に基づいてARES条件を生成し、質問自己完結、回答忠実、妥当性の検証フィルタを適用する。
7つのベンチマークでの実験では、ARESでトレーニングされたルーブリックベースのトレーニングは、継続事前トレーニング、教師付き微調整、バイナリリワードRLよりも優れており、ヘルスケアやインストラクションフォローのような多次元のオープンエンドタスクで最大の利益を得ている。
- 参考スコア(独自算出の注目度): 71.25239709712193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rubric-based rewards offer a promising way to extend reinforcement learning (RL) for large language models beyond tasks with automatically verifiable answers. However, scaling rubric-based RL remains challenging: existing approaches often rely on expert-written rubrics and manually constructed question sets, while fixed task-level rubrics may fail to capture the evaluation requirements of individual questions. We propose ARES (Automated Rubric synthEsis for Scalable RL), a framework for automatically constructing rubric-based RL data at scale. Starting from raw pretraining documents, ARES converts source knowledge into self-contained question-answer pairs and co-generates question-specific weighted rubrics, enabling instance-level reward supervision for open-ended responses. To improve diversity and quality, ARES conditions generation on domain labels and persona information, and applies validation filters for question self-containment, answer faithfulness, and rubric validity. Using ARES, we construct 100K rubric-annotated instances across ten domains. Experiments on seven benchmarks show that rubric-based RL trained with ARES, outperforms continual pretraining, supervised fine-tuning, and binary-reward RL, with the largest gains on multi-dimensional open-ended tasks such as healthcare and instruction following.
- Abstract(参考訳): ルーブリックベースの報酬は、自動検証可能な回答を持つタスクを超えて、大規模言語モデルの強化学習(RL)を拡張するための有望な方法を提供する。
しかし、ルーブリックベースのRLのスケーリングは依然として困難であり、既存のアプローチは専門家が書いたルーブリックや手作業による質問セットに頼っていることが多い。
ARES(Automated Rubric SynthEsis for Scalable RL)を提案する。
生の事前訓練文書から始め、ARESはソース知識を自己完結した質問回答ペアに変換し、質問固有の重み付きルーリックを共同生成し、オープンな応答に対するインスタンスレベルの報酬管理を可能にする。
多様性と品質を改善するため、ドメインラベルとペルソナ情報に基づいてARES条件を生成し、質問自己完結、回答忠実、ルーリック妥当性の検証フィルタを適用する。
ARESを用いて、10つのドメインに100Kルーブリックアノテーションを付加したインスタンスを構築する。
7つのベンチマークでの実験では、ARESでトレーニングされたルーブリックベースのRLは、継続事前トレーニング、教師付き微調整、バイナリリワードRLよりも優れており、ヘルスケアやインストラクションのような多次元オープンエンドタスクにおいて最大の利益を得ている。
関連論文リスト
- MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。
MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T15:51:39Z) - Reinforcement Learning with Rubric Anchors [26.9944158097067]
RLVR(Reinforcement Learning from Verifiable Rewards)は、大規模言語モデル(LLM)の強化のための強力なパラダイムとして登場した。
我々はRLVRパラダイムを、ルーブリックベースの報酬を統合することで、オープンエンドタスクに拡張する。
私たちは、これまでで最大のルーリック報酬システムを構築しており、人間やLLM、ハイブリッドな人間とLLMのコラボレーションから1万以上のルーリックを集めています。
論文 参考訳(メタデータ) (2025-08-18T10:06:08Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - SimRAG: Self-Improving Retrieval-Augmented Generation for Adapting Large Language Models to Specialized Domains [45.349645606978434]
Retrieval-augmented Generation (RAG) は大規模言語モデル(LLM)の質問応答能力を向上させる
ドメイン適応のための質問応答と質問生成のジョイント機能を備えた自己学習手法であるSimRAGを提案する。
2つのバックボーンサイズと3つのドメインにまたがる11のデータセットの実験は、SimRAGがベースラインを1.2%~8.6%上回ることを示した。
論文 参考訳(メタデータ) (2024-10-23T15:24:16Z) - W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
W-RAGは、下流タスクから弱いトレーニング信号を抽出し、検索者がタスクに最も利益をもたらすパスを優先順位付けするように微調整する手法である。
我々は4つの公開可能なOpenQAデータセットの包括的な実験を行い、我々のアプローチが検索とOpenQAのパフォーマンスを向上させることを実証した。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering [115.72130322143275]
REAR(Relevance-Aware Retrieval-augmented approach for open-domain Question answering, QA)
我々は,特殊な設計のアセスメントモジュールを組み込むことで,LLMベースのRAGシステムのための新しいアーキテクチャを開発する。
オープンドメインの4つのQAタスクの実験では、REARは以前の競争力のあるRAGアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems [46.522527144802076]
本稿では,RAGシステム評価のための自動RAG評価システムであるARESを紹介する。
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
コードとデータセットをGithubで公開しています。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。