論文の概要: Think-with-Rubrics: From External Evaluator to Internal Reasoning Guidance
- arxiv url: http://arxiv.org/abs/2605.07461v1
- Date: Fri, 08 May 2026 09:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.93804
- Title: Think-with-Rubrics: From External Evaluator to Internal Reasoning Guidance
- Title(参考訳): シンク・ウィズ・ルーブリック:外部評価から内部推論指導へ
- Authors: Jiachen Yu, Zhihao Xu, Junjie Wang, Yujiu Yang,
- Abstract要約: Think-with-Rubricsは、タスクに従うための新しいパラダイムである。
Think-with-Rubricsはルーブリック生成を推論コンテキストに統合する。
- 参考スコア(独自算出の注目度): 47.20458011652909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rubrics have been extensively utilized for evaluating unverifiable, open-ended tasks, with recent research incorporating them into reward systems for reinforcement learning. However, existing frameworks typically treat rubrics only as external evaluator disjointed from the policy's primary reasoning trace. Such design confines rubrics to post-hoc measurement, leaving them unable to actively guide the model's generation process. In this work, we introduce Think-with-Rubrics, a novel paradigm for instruction following tasks. Think-with-Rubrics integrates rubric generation into the reasoning context, transforming the rubric from an independent artifact into an internal guidance of LLM's generation. During training, LLM sequentially generates a rubric followed by a response, while a trained rubric verifier provides joint supervision by evaluating the consistency between the answer and the self-generated / golden rubrics. Experiments across multiple benchmarks demonstrate that Think-with-Rubrics consistently outperforms the Rubric-as-Reward baseline supervised by golden rubrics by an average of 3.87 points. We have also discussed the mechanism by which Think-with-Rubrics enhances model performance. Experimental results demonstrate that supervision from golden rubrics and self-generated rubrics enhances the performance of Think-with-Rubrics by improving the quality of self-generated rubrics and increasing the internal consistency of responses respectively.
- Abstract(参考訳): ルーブリックは検証不能でオープンなタスクの評価に広く利用されており、近年では強化学習のための報酬システムに組み入れられている。
しかし、既存のフレームワークは通常、政策の主要な理由から外れた外部評価器としてのみ、ルーブリックを扱う。
このような設計はルーブリックをポストホック測定に閉じ込め、モデルの生成プロセスを積極的に導くことはできない。
本稿では,タスクに従うための新しいパラダイムであるThink-with-Rubricsを紹介する。
Think-with-Rubrics はルーブリック生成を推論コンテキストに統合し、ルーブリックを独立したアーティファクトから LLM 生成の内部ガイダンスに変換する。
訓練中、LLMは次に反応が続くルーリックを順次生成し、訓練されたルーリック検証器は、応答と自己生成/黄金ルーリックとの整合性を評価することで共同で監視する。
複数のベンチマークでの実験では、Think-with-Rubrics はゴールデン・ルーリックが監督するルーブリック・アズ・リワードのベースラインを平均3.87ポイント上回っている。
また、Think-with-Rubricsがモデル性能を向上させるメカニズムについても論じている。
実験結果から, 黄金のルーリックと自己生成のルーリックの監督は, 自己生成のルーリックの品質向上と, 応答内部の整合性の向上により, シンク・ウィズ・ルーブリックの性能向上を図っている。
関連論文リスト
- Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs [63.88783817420284]
ロボットは、何がどうなったのか、なぜ失敗したのかを反映できず、展開を一連の独立した試行に転換する。
リフレクティブテストタイムプランニングを導入し、リフレクティブの2つのモードを統合する:textitreflection-in-actionと textitreflection-on-action
また、振り返りのリフレクションが含まれており、エージェントは事前の判断を再評価し、後向きでモデル更新を実行できます。
論文 参考訳(メタデータ) (2026-02-24T18:55:18Z) - R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging [69.96389360650072]
解析精度は, 標準ラベルの精度を超えて, 下流RLHFの結果を高い精度で予測できることが示される。
我々は,金の判断でトレーニングを増強し,合理的アライメントを明示的に監督するR-Alignを提案する。
論文 参考訳(メタデータ) (2026-02-06T15:17:11Z) - CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models [29.703793991791674]
既存のRAG指向強化学習法は、文書の忠実さを評価するのにしばしば失敗する外部報酬に依存している。
コントラッシブ・ライリフッド・リワード(CLR)を中心とした新たな「内外的」ハイブリッド報酬枠組を提案する。
CLRは、エビデンスをサポートしないプロンプトで条件付けられたレスポンス間のログライクなギャップを直接最適化する。
論文 参考訳(メタデータ) (2026-02-02T12:21:59Z) - AutoRubric-R1V: Rubric-Based Generative Rewards for Faithful Multimodal Reasoning [25.984031524564188]
AutoRubric-R1Vは、RLVRとプロセスレベルの監視を統合するフレームワークである。
ルーブリックベースと結果の報酬を併用することにより、AutoRubric-R1Vは6つのマルチモーダル推論ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-16T14:40:02Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Internal Consistency and Self-Feedback in Large Language Models: A Survey [19.647988281648253]
我々は、内部整合性の統一的な視点を使用し、欠陥や幻覚を推論するための説明を提供する。
自己フィードバックと呼ばれる内部一貫性をマイニングできる効果的な理論的枠組みを導入する。
論文 参考訳(メタデータ) (2024-07-19T17:59:03Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。