論文の概要: EvoLM: Self-Evolving Language Models through Co-Evolved Discriminative Rubrics
- arxiv url: http://arxiv.org/abs/2605.03871v1
- Date: Tue, 05 May 2026 15:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.007474
- Title: EvoLM: Self-Evolving Language Models through Co-Evolved Discriminative Rubrics
- Title(参考訳): EvoLM: 自己進化型言語モデル
- Authors: Shuyue Stella Li, Rui Xin, Teng Xiao, Yike Wang, Rulin Shao, Zoey Hao, Melanie Sclar, Sewoong Oh, Faeze Brahman, Pang Wei Koh, Yulia Tsvetkov,
- Abstract要約: 言語モデルは事前学習からかなりの評価知識を符号化する。
現在のポストトレーニング手法は、報酬信号を生成するために外部の監督に依存している。
EVOLMは、モデルの評価能力を明示的な識別的ルーブリックに構造化する手法である。
- 参考スコア(独自算出の注目度): 86.49781345669436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models encode substantial evaluative knowledge from pretraining, yet current post-training methods rely on external supervision (human annotations, proprietary models, or scalar reward models) to produce reward signals. Each imposes a ceiling. Human judgment cannot supervise capabilities beyond its own, proprietary APIs create dependencies, and verifiable rewards cover only domains with ground-truth answers. Self-improvement from a model's own evaluative capacity is a reward source that scales with the model itself, yet remains largely untapped by current methods. We introduce EVOLM, a post-training method that structures this capacity into explicit discriminative rubrics and uses them as training signal. EVOLM trains two capabilities within a single language model in alternation: (1) a rubric generator producing instance-specific evaluation criteria optimized for discriminative utility, which maximizes a small frozen judge's ability to distinguish preferred from dispreferred responses; and (2) a policy trained using those rubric-conditioned scores as reward. All preference signals are constructed from the policy's own outputs via temporal contrast with earlier checkpoints, requiring no human annotation or external supervision. EVOLM trains a Qwen3-8B model to generate rubrics that outperform GPT-4.1 on RewardBench-2 by 25.7%. The co-trained policy achieves 69.3% average on the OLMo3-Adapt suite, outperforming policies trained with GPT-4.1 prompted rubrics by 3.9% and with the state-of-the-art 8B reward model SkyWork-RM by 16%. Overall, EVOLM demonstrates that structuring a model's evaluative capacity into co-evolving discriminative rubrics enables self-improvement without external supervision.
- Abstract(参考訳): 言語モデルは事前訓練からかなりの評価知識を符号化するが、現在の訓練後の方法は報酬信号を生成するために外部の監督(人間のアノテーション、プロプライエタリなモデル、スカラーの報酬モデル)に依存している。
それぞれ天井が設けられている。
人間による判断は、独自のAPIが依存関係を生成し、検証可能な報酬は、根本的な答えを持つドメインのみをカバーする。
モデル自身の評価能力からの自己改善は、モデル自体と共にスケールする報奨源であるが、現在の手法にほとんど触れられていない。
本稿では,この能力を明示的な識別的ルーリックに構造化し,学習信号として使用するポストトレーニング手法であるEVOLMを紹介する。
EVOLMは,(1)識別ユーティリティに最適化されたインスタンス固有の評価基準を生成するルーリックジェネレータを作成した。
すべての選好信号は、以前のチェックポイントと時間的に対比してポリシーの出力から作成され、人間のアノテーションや外部の監視を必要としない。
EVOLMはQwen3-8Bモデルを訓練し、RewardBench-2でGPT-4.1を上回った潤滑剤を25.7%出力した。
OLMo3-Adaptスイートの平均69.3%を達成し、GPT-4.1でトレーニングされたポリシーよりも3.9%、最先端の8B報酬モデルであるSkyWork-RMを16%上回った。
全体として、EVOLMはモデルの評価能力を共進化する差別的ルーブリックに構造化することで、外部の監督なしに自己改善できることを示した。
関連論文リスト
- Characterizing Model-Native Skills [16.891026204025838]
スキルは、言語モデルに何ができるか、その振る舞いをどのように変えられるのかを記述するための自然なユニットである。
既存の特徴付けは人書き、テキスト記述、手動プロファイリングパイプラインに依存している。
モデルビヘイビアに介入することが目標である場合、スキルの特徴付けは*モデルネイティブ*でなければならない、と我々は主張する。
論文 参考訳(メタデータ) (2026-04-19T20:58:25Z) - LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model [99.71684530652942]
LLaVA-Critic-R1は高い評価を受けた批評家としてだけでなく、競争政策モデルとしても現れることを示す。
テスト時に自己批判を適用すると、5つの代表的な推論タスクに対して平均+13.8%の改善が得られる。
その結果,評価と生成の両面において優れた統一モデルが得られることがわかった。
論文 参考訳(メタデータ) (2025-08-31T03:08:02Z) - URPO: A Unified Reward & Policy Optimization Framework for Large Language Models [10.511836918064724]
本稿では,1つのモデルと1つのトレーニングフェーズにおいて,命令フォロー(プレイヤ)と報酬モデリング(参照)を統一する新しいフレームワークを提案する。
提案手法は,全てのアライメントデータを含む選好ペア,検証可能な推論,オープンな命令を統一された生成形式に再キャストする。
Qwen2.5-7Bモデルの実験はURPOの優位性を示している。
論文 参考訳(メタデータ) (2025-07-23T13:52:27Z) - Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。
POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。
実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-07T16:56:31Z) - Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。
まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。
現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-25T06:49:03Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。