論文の概要: ARBOR: Online Process Rewards via a Reusable Rubric Buffer for Search Agents
- arxiv url: http://arxiv.org/abs/2606.03239v1
- Date: Tue, 02 Jun 2026 06:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.819398
- Title: ARBOR: Online Process Rewards via a Reusable Rubric Buffer for Search Agents
- Title(参考訳): ARBOR: 検索エージェントの再利用可能なルーブリックバッファによるオンラインプロセスリワード
- Authors: Zheng Liu, Longxiang Zhang, Xintong Wang, Zhiang Xu, Shaoxiong Zhan, Xin Shan, Wen Huang, Tao Dai, Shu-Tao Xia, Chengfu Huo, Liang Ding,
- Abstract要約: LLMベースの検索エージェントは、主に結果のみの報酬で訓練され、検索プロセス自体は監督されていない。
この信号は、全てのサンプル軌跡が同じ正当性を共有する結果同質な群に対して退化し、群内の優位性はゼロとなり、勾配は得られない。
ARBOR(Adaptive Buffer for Online Reward)は,クエリ間で共有されるルーリックメモリを維持する再利用可能なプロセス・リワードフレームワークである。
- 参考スコア(独自算出の注目度): 48.80766702702854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based search agents are trained predominantly with outcome-only reward, leaving the search process itself unsupervised. This signal degenerates on outcome-homogeneous groups where all sampled trajectories share the same correctness, yielding zero within-group advantage and no gradient. Existing process supervision either trains a costly verifier or generates per-query rubrics that are inconsistent across queries and discarded after one use. We propose ARBOR (Adaptive Rubric Buffer for Online Reward), a reusable process-reward framework that maintains a rubric memory shared across queries. Query-local drafts induced from contrastive trajectories are admitted, consolidated into cross-query common rubrics, and retired as the policy evolves. A small active subset of common rubrics scores trajectories via sparse pairwise judging, and the resulting scores are added to the base reward, providing process-level gradient even when outcome reward is uniform. ARBOR consistently outperforms GRPO and DAPO baselines on four multi-hop QA benchmarks, raising average LLM-judge accuracy by up to 4.2 points and converting up to 42% of otherwise-zero-gradient training groups into informative ones.
- Abstract(参考訳): LLMベースの検索エージェントは、主に結果のみの報酬で訓練され、検索プロセス自体は監督されていない。
この信号は、全てのサンプル軌跡が同じ正当性を共有する結果同質な群に対して退化し、グループ内部の優位性はゼロとなり、勾配は得られない。
既存のプロセスの監督は、高価な検証器を訓練するか、クエリ間で一貫性のないクエリごとのルーリックを生成し、1回の使用後に破棄する。
ARBOR(Adaptive Rubric Buffer for Online Reward)は,クエリ間で共有されるルーリックメモリを維持する再利用可能なプロセス・リワードフレームワークである。
対照的な軌跡から引き起こされたクエリローカルドラフトが承認され、クロスクエリの共通ルーリックに統合され、ポリシーが進化するにつれてリタイアされる。
共通のルーリックの小さなアクティブサブセットは、スパース対判定により軌跡をスコアし、その結果のスコアをベース報酬に追加し、結果報酬が均一であってもプロセスレベル勾配を与える。
ARBORはGRPOとDAPOのベースラインを4つのマルチホップQAベンチマークで一貫して上回り、平均LLM-judgeの精度を4.2ポイント引き上げ、非ゼログレードのトレーニンググループの最大42%を情報的なグループに変換する。
関連論文リスト
- VeriGate: Verifier-Gated Step-Level Supervision for GRPO [51.26100506256885]
グループ相対政策最適化は、検証者に基づく結果報酬を伴う推論モデルをトレーニングするための効果的なレシピである。
GRPO の検証子付き拡張である VeriGate を提案し,これらの制限を3つの設計選択で解決する。
We show that VeriGate improves average accuracy around 20% and 12% for 1.5B and 7B models respectively。
論文 参考訳(メタデータ) (2026-05-28T18:20:32Z) - RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains [19.25508787530297]
RUBRIC-ARROWは、ルビリックジェネレータとルビリックコンディショナーを共同で訓練する交互フレームワークである。
提案手法では,確率に基づくスコアリングルールと,位相特異的な選好に基づく報酬との相関を低減し,ポイントワイド評価器を併用する交互GRPO方式を併用する。
論文 参考訳(メタデータ) (2026-05-27T22:46:25Z) - Advantage Collapse in Group Relative Policy Optimization: Diagnosis and Mitigation [13.272542054938258]
非効率な勾配でトレーニングバッチの割合を定量化する最初の指標であるAdvantage Collapse Rate (ACR)を導入する。
次に、仮想報酬サンプルを注入するGRPOの軽量拡張であるAdaptive Virtual Sample Policy Optimization (AVSPO)を提案する。
AVSPOはGRPOに対して58~63%の利害崩壊を減少させ、すべてのモデルスケールで4~6ポイントの一貫した精度向上をもたらす。
論文 参考訳(メタデータ) (2026-05-20T12:57:37Z) - PAPO: Stabilizing Rubric Integration Training via Decoupled Advantage Normalization [31.935482701047544]
本稿では,既存の報酬設計の2つの制約に対処するプロセスアウェア・ポリシー・オプティマイズ(PAPO)を提案する。
PAPOはプロセスレベルの評価をグループ相対政策最適化(GRPO)に統合する。
複数のモデルスケールと6つのベンチマークの実験は、PAPOがORMを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-03-27T15:48:13Z) - From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning [7.6602542594279335]
本稿では,報酬形成を絶対得点から相対ランクへシフトさせるために,相対報酬を用いた強化学習を提案する。
RLRRは、推論ベンチマークやオープン・エンド・ジェネレーションタスクにおいて、標準グループベースベースラインよりも一貫した性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-30T15:07:06Z) - ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。
我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。
実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-10T08:43:07Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - LTRR: Learning To Rank Retrievers for LLMs [53.285436927963865]
ルーティングベースのRAGシステムは、単一リトリバーベースのシステムよりも優れていることを示す。
パフォーマンス向上は、特にAnswer Correctness(AC)メトリックでトレーニングされたモデルで顕著である。
SIGIR 2025 LiveRAG チャレンジの一環として,提案システムを用いて提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-16T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。