論文の概要: Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2604.02621v1
- Date: Fri, 03 Apr 2026 01:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.26689
- Title: Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge
- Title(参考訳): LLM-as-a-Judgeを用いた強化学習に基づく知識蒸留
- Authors: Yiyang Shen, Lifu Tu, Weiran Wang,
- Abstract要約: 強化学習(RL)は,小・大規模言語モデル(LLM)の推論能力を大幅に向上させることが示されている。
本稿では,LLM から得られる報酬を,ラベルのない大量のデータに対してモデル出力を評価する判断として利用する RL フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.157091997511623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has been shown to substantially improve the reasoning capability of small and large language models (LLMs), but existing approaches typically rely on verifiable rewards, hence ground truth labels. We propose an RL framework that uses rewards from an LLM that acts as a judge evaluating model outputs over large amounts of unlabeled data, enabling label-free knowledge distillation and replacing the need of ground truth supervision. Notably, the judge operates with a single-token output, making reward computation efficient. When combined with verifiable rewards, our approach yields substantial performance gains across math reasoning benchmarks. These results suggest that LLM-based evaluators can produce effective training signals for RL fine-tuning.
- Abstract(参考訳): 強化学習(RL)は、小規模および大規模言語モデル(LLM)の推論能力を大幅に改善することが示されているが、既存のアプローチは通常、検証可能な報酬に依存しており、したがって基礎的な真理ラベルである。
本稿では,ラベルなしの知識蒸留を可能とし,根本的真理監督の必要性を代替し,ラベルなしの知識蒸留を可能とし,モデル出力をラベル付けされていない大量のデータに対して評価する判断器として,LLMの報酬を利用するRLフレームワークを提案する。
特に、裁判官は単一のトーケン出力で動作し、報酬計算を効率的にする。
検証可能な報酬と組み合わせると、我々の手法は数学推論ベンチマークでかなりの性能向上をもたらす。
これらの結果から, LLMに基づく評価器は, RL微調整のための効果的なトレーニング信号を生成することができることが示唆された。
関連論文リスト
- Reinforcement Learning from Meta-Evaluation: Aligning Language Models Without Ground-Truth Labels [2.757286637005573]
メタ評価(RLME)による強化学習
本稿では,自然言語メタクエストに対する評価者の回答から得られる報酬を用いて,ジェネレータを最適化するRLMEを紹介する。
実験の結果,RLMEはラベルベーストレーニングに匹敵する精度とサンプル効率が得られた。
論文 参考訳(メタデータ) (2026-01-29T05:02:08Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。
我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文 参考訳(メタデータ) (2025-05-26T22:51:00Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Reinforcement Learning to Rank Using Coarse-grained Rewards [17.09775943683446]
粗い粒度のフィードバック信号は、よりアクセシブルで手頃な価格である。
既存の強化学習 ランクへのアプローチは、高いばらつきと低いサンプル効率に悩まされる。
本稿では,大規模言語モデルに広く用いられているRLアルゴリズムに基づいて,新しい強化学習手法をランク付けする。
論文 参考訳(メタデータ) (2022-08-16T06:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。