論文の概要: AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.18592v2
- Date: Tue, 26 May 2026 17:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.675692
- Title: AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning
- Title(参考訳): AMARIS:ルーブリック強化学習のためのメモリ拡張ルーブリック改善システム
- Authors: Peilin Wu, Xinlu Zhang, Kun Wan, Wentian Zhao, Gang Wu, Xinya Du, Zhiyu Chen,
- Abstract要約: 既存の適応ルーブリックメソッドは、現在のバッチやインスタンスレベルの比較のようなローカルエビデンスから基準を更新する。
AMARIS(AMemory-Augmented Improvement System)を導入する。
AMARISはロールアウト分析、ステップレベルサマリー、ルーブリック更新レコードを永続的な評価メモリに格納し、更新に関連のある最近の履歴を検索する。
- 参考スコア(独自算出の注目度): 25.32049139462467
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Rubric-based reward shaping provides interpretable and editable reward signals for fine-tuning LLMs via reinforcement learning (RL), but existing adaptive rubric methods typically update criteria from local evidence such as the current batch or instance-level comparisons. This local view discards diagnostic information produced during training, making it difficult to track recurring failures, evaluate previous rubric edits, or raise standards once earlier criteria become saturated. We introduce AMARIS, A Memory-Augmented Rubric Improvement System that grounds rubric updates in longitudinal training evidence. AMARIS stores rollout analyses, step-level summaries, and rubric update records in a persistent evaluation memory, then retrieves recent and semantically relevant history to revise rubrics. We evaluate AMARIS across science, medicine, instruction following, and creative writing under both global and instance-specific rubric settings. AMARIS improves over static, local-adaptive, and memory-ablated baselines, such as +2.8 points on GPQA-Diamond and +2.2 points on IFBench over the strongest baselines, while analysis shows that memory reduces oscillatory rubric edits and supports a progression from early failure correction to later curriculum advancement. AMARIS runs asynchronously alongside the normal RL loop, reducing blocking latency relative to synchronous rubric updates.
- Abstract(参考訳): ルーブリックベースの報酬形成は、強化学習(RL)を介して微調整されたLLMに対して、解釈可能かつ編集可能な報酬信号を提供するが、既存の適応ルーブリック法は、通常、現在のバッチやインスタンスレベルの比較のようなローカルエビデンスから基準を更新する。
このローカルビューは、トレーニング中に生成された診断情報を破棄するので、繰り返し発生する故障を追跡したり、以前のルーリック編集を評価したり、以前の基準が飽和すると基準を引き上げたりするのが難しくなる。
AMARIS(AMemory-Augmented Rubric Improvement System)を紹介する。
AMARISはロールアウト解析、ステップレベルサマリー、ルーリック更新レコードを永続的な評価メモリに格納し、最近の意味的に関連する履歴を検索してルーリックを更新する。
我々はAMARISを、グローバルおよびインスタンス固有のルーリック設定の両方で、科学、医学、インストラクション、クリエイティビティ・ライティングで評価する。
AMARISは、GPQA-ダイアモンドの+2.8点、IFBenchの+2.2点などの静的、局所適応的、メモリ関連ベースラインよりも改善され、解析により、メモリは発振ルーブリック編集を減らし、初期のエラー修正から後のカリキュラムの進歩をサポートする。
AMARISは通常のRLループと非同期に動作し、同期ルーブリック更新に対するブロッキングレイテンシを低減する。
関連論文リスト
- RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards [76.17893114021757]
長い形式のレポートを計画し、調査し、エビデンスを評価し、合成する深層研究システムには、根本的な答えがなく、多くのツール強化された決定にまたがる。
本研究では,ルーブリックは最終回答評価者だけでなく,ポリシーの実行,判断フィードバック,エージェントメモリを構成する共有インターフェースとして機能すべきである,と論じる。
我々は、段階的な政策分解とリフレクションに基づくメタ政治進化を組み合わせたルーリック誘導強化学習フレームワークEMを導入する。
論文 参考訳(メタデータ) (2026-05-11T17:40:38Z) - Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training [29.56905427210088]
Gragient-ARMは、好みのフィードバックから強化学習を使用するルーリックジェネレータとジャッジを共同で最適化するフレームワークである。
ベンチマークのベースライン間で、勾配-ARMは最先端のパフォーマンスを達成し、オフラインおよびオンラインの強化学習設定において、ダウンストリームポリシーアライメントを大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-02T00:50:53Z) - RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization [65.23034604711489]
大規模な推論モデルをトレーニングするための自己改善フレームワークであるRLoopを紹介します。
RLoopはまず、RLを使用して所定のポリシからソリューション空間を探索し、成功したトラジェクトリをフィルタリングしてエキスパートデータセットを作成する。
実験の結果、RLoopsは一般化を忘れて大幅に改善し、平均精度は9%、pass@32はバニラRLに比べて15%以上向上した。
論文 参考訳(メタデータ) (2025-11-06T11:27:16Z) - LiveSearchBench: An Automatically Constructed Benchmark for Retrieval and Reasoning over Dynamic Knowledge [31.40589987269264]
近年の知識更新から検索依存ベンチマークを構築するためのパイプラインであるLiveSearchBenchを紹介する。
提案手法は, 連続するウィキデータスナップショット間のデルタを計算し, 品質の3倍をフィルタし, 3段階の推論困難度で自然言語質問を合成する。
実験では、モデルが過去の事前トレーニングの事実に直面すると、パフォーマンスの低下が顕著になる。
論文 参考訳(メタデータ) (2025-11-03T10:00:49Z) - A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning [45.19254609437857]
オンライン強化学習(RL)は、複雑で安全クリティカルな領域で優れているが、サンプルの非効率性、トレーニング不安定性、限定的な解釈可能性に悩まされている。
データ属性は、モデルの振る舞いをトレーニングサンプルに遡る、原則化された方法を提供する。
本稿では、オンラインRLトレーニングのためのアルゴリズムである反復的影響ベースのフィルタリング(IIF)を提案し、ポリシー更新を洗練するための経験的フィルタリングを反復的に行う。
論文 参考訳(メタデータ) (2025-05-25T19:25:57Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。