論文の概要: SERL: Self-Examining Reinforcement Learning on Open-Domain
- arxiv url: http://arxiv.org/abs/2511.07922v2
- Date: Tue, 18 Nov 2025 12:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.488916
- Title: SERL: Self-Examining Reinforcement Learning on Open-Domain
- Title(参考訳): SERL: オープンドメインによる自己評価強化学習
- Authors: Weixuan Ou, Yanzhao Zheng, Shuoshuo Sun, Wei Zhang, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu, Pengwei Yan, Yifan Qiao,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)の能力を向上させることが示されている。
本稿では,LLMがアクターとジャッジの両方として機能する新しい自己改善フレームワークである自己評価強化学習(SERL)を提案する。
SERLは外部信号を持たない2つの相乗的な報酬機構を導入している。
- 参考スコア(独自算出の注目度): 15.056432135684672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has been shown to improve the capabilities of large language models (LLMs). However, applying RL to open-domain tasks faces two key challenges: (1) the inherent subjectivity of these tasks prevents the verifiable rewards as required by Reinforcement Learning with Verifiable Rewards (RLVR); (2) Reinforcement Learning from Human Feedback (RLHF) relies on external reward mechanisms. To overcome these limitations, we propose Self-Examining Reinforcement Learning (SERL), a novel self-improving framework where the LLM serves as both Actor and Judge. SERL introduces two synergistic reward mechanisms without any external signals. On the one hand, to improve the Actor's capability, we derive rewards from Copeland-style pairwise comparison judgments across a group of generated responses. On the other hand, a self-consistency reward that encourages coherent judgments is proposed to improve the Judge's reliability. This process refines the Judge's capability, which in turn provides a more robust reward for Actor. Experiments show that our method outperforms existing self-improvement training methods. SERL improves the LC win rate of Qwen3-8B on AlpacaEval 2 from 52.37% to 59.90%. To the best of our knowledge, our method achieves state-of-the-art performance among self-improving approaches. Furthermore, it achieves a performance comparable to significantly larger models like Qwen3-32B, demonstrating superior effectiveness and robustness on open-domain tasks.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)の能力を改善することが示されている。
しかしながら、RLをオープンドメインタスクに適用することは、(1)本質的な主観性は、(RLVR)強化学習(Reinforcement Learning with Verifiable Rewards)に必要な検証可能な報酬を防止し、(2)人間からの強化学習(Reinforcement Learning from Human Feedback)は外部の報酬メカニズムに依存する。
これらの制約を克服するために,LLMがアクターとジャッジの両方として機能する新しい自己改善フレームワークであるSERL(Self-Examining Reinforcement Learning)を提案する。
SERLは外部信号を持たない2つの相乗的な報酬機構を導入している。
一方、アクターの能力を向上させるために、生成した応答群間でのコペランド型ペアワイズ比較判定から報酬を導出する。
一方、裁判官の信頼性を高めるために、一貫性のある判断を促す自己整合性報酬が提案されている。
このプロセスは審査員の能力を洗練させ、それによってアクターにより堅牢な報酬を与える。
実験の結果,本手法は既存の自己改善訓練方法よりも優れていた。
SERLはAlpacaEval 2でのQwen3-8BのLC勝利率を52.37%から59.90%に改善した。
我々の知識を最大限に活用するために,本手法は自己改善手法の最先端性能を実現する。
さらに、Qwen3-32Bのようなかなり大きなモデルに匹敵するパフォーマンスを実現し、オープンドメインタスクにおける優れた効率性と堅牢性を示している。
関連論文リスト
- Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - Beyond Correctness: Rewarding Faithful Reasoning in Retrieval-Augmented Generation [21.72639961371058]
本稿では,RLに基づく検索エージェントを評価するための総合的な評価フレームワークを提案する。
忠実な推論を促進するために,よりきめ細かな忠実さ報酬を強化学習プロセスに統合する新しい枠組みであるVERITASを紹介する。
論文 参考訳(メタデータ) (2025-10-15T08:17:52Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models [22.10168313140081]
本稿では,AIフィードバックから報酬関数を学習する評価に基づく強化学習手法ERL-VLMを紹介する。
ERL-VLMは、個々の軌道の絶対評価のために大きな視覚言語モデルをクエリし、より表現力のあるフィードバックを可能にする。
ERL-VLM は既存の VLM ベースの報酬生成手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-06-15T12:05:08Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。