論文の概要: Auto-Rubric: Learning to Extract Generalizable Criteria for Reward Modeling
- arxiv url: http://arxiv.org/abs/2510.17314v1
- Date: Mon, 20 Oct 2025 09:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.377529
- Title: Auto-Rubric: Learning to Extract Generalizable Criteria for Reward Modeling
- Title(参考訳): オートルーブリック:リワードモデリングのための一般化可能な基準を抽出する学習
- Authors: Lipeng Xie, Sen Huang, Zhuo Zhang, Anni Zou, Yunpeng Zhai, Dingchao Ren, Kezun Zhang, Haoyuan Hu, Boyin Liu, Haoran Chen, Zhaoyang Liu, Bolin Ding,
- Abstract要約: リワードモデルは、大規模言語モデルと人間の価値の整合に不可欠であるが、その開発はコストのかかる選好データセットと低い解釈可能性によって妨げられている。
検証誘導型 textbfPropose-Evaluate-Revise パイプラインを用いて,高品質でクエリ固有のルーリックを推論する,トレーニング不要のフレームワークを構築した。
わずか70の選好ペア(ソースデータの1.5%)を使用することで、Qwen3-8Bのようなより小型のモデルでも、専門的で完全に訓練されたモデルよりも優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 37.237020102873
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reward models are essential for aligning Large Language Models (LLMs) with human values, yet their development is hampered by costly preference datasets and poor interpretability. While recent rubric-based approaches offer transparency, they often lack systematic quality control and optimization, creating a trade-off between scalability and reliability. We address these limitations with a novel, training-free framework built on a key assumption: \textit{evaluation rubrics underlying human preferences exhibit significant generalization ability across diverse queries}, a property that enables remarkable data efficiency. Our two-stage approach first infers high-quality, query-specific rubrics using a validation-guided \textbf{Propose-Evaluate-Revise} pipeline. Second, it generalizes these granular rubrics into a compact, non-redundant core set by maximizing an \textbf{information-theoretic coding rate}. The final output is an interpretable, hierarchical "Theme-Tips" rubric set. Extensive experiments demonstrate the framework's exceptional data efficiency and performance. Critically, using just 70 preference pairs (1.5\% of the source data), our method also empowers smaller models like Qwen3-8B to outperform specialized, fully-trained counterparts. This work pioneers a scalable, interpretable, and data-efficient path for reward modeling.
- Abstract(参考訳): リワードモデルは、Large Language Models(LLM)と人的価値の整合に不可欠であるが、その開発はコストのかかる選好データセットと低い解釈可能性によって妨げられている。
最近のルーリックベースのアプローチは透明性を提供するが、しばしば体系的な品質管理と最適化が欠如しており、スケーラビリティと信頼性のトレードオフを生み出している。
人間の嗜好に根ざした‘textit{evaluation rubrics’は、データ効率を著しく向上させる特性である多様なクエリーにまたがる大きな一般化能力を示す。
我々の2段階のアプローチはまず、バリデーション誘導された \textbf{Propose-Evaluate-Revise} パイプラインを用いて、高品質でクエリ固有のルーリックを推論する。
第二に、これらの粒状ルーブリックをコンパクトで非冗長なコア集合に一般化し、 \textbf{information-theoretic coding rate} を最大化する。
最後の出力は解釈可能で階層的な"Theme-Tips"ルーリック集合である。
大規模な実験では、フレームワークの例外的なデータ効率とパフォーマンスが実証されている。
重要な点として、70組の選好ペア(ソースデータの1.5パーセント)を使用することで、Qwen3-8Bのような小さなモデルでも、専門的で完全に訓練されたモデルよりも優れたパフォーマンスを実現できる。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスの先駆者です。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Improving Model Classification by Optimizing the Training Dataset [3.987352341101438]
Coresetsはデータ削減に対する原則的なアプローチを提供し、大規模なデータセットでの効率的な学習を可能にする。
下流の分類品質を向上させるために,コアセット生成プロセスを調整するための体系的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-22T16:10:11Z) - TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation [50.23504065567638]
本稿では,メタラーニングフレームワークにおける textbfDataset textbfDistillation 手法である textbfTD3 を紹介する。
TD3は、オリジナルのデータから完全に表現力のある合成配列の要約を蒸留する。
拡張技術により、学習者は合成要約を忠実に適合させ、アンプループでの正確な更新を確実にすることができる。
論文 参考訳(メタデータ) (2025-02-05T03:13:25Z) - In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。
LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-07T05:48:05Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。