論文の概要: Confidence-Orchestrated Self-Evolution against Uncertain LLM Feedback
- arxiv url: http://arxiv.org/abs/2605.28010v1
- Date: Wed, 27 May 2026 06:07:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.78977
- Title: Confidence-Orchestrated Self-Evolution against Uncertain LLM Feedback
- Title(参考訳): 不確かさ LLM フィードバックに対する信頼構築型自己進化
- Authors: Bowen Wei, Nan Wang, Yuqing Zhou, Jinhao Pan, Ziwei Zhu,
- Abstract要約: 自己進化型大規模言語モデル(LLM)は、独自のトレーニングタスクとソリューションを生成し、人事監督への依存を減らすことで学習する。
我々は,LLMの本質的信頼度を軽度不確実性信号として用いて学習を変調するCOSE(Confidence-Orchestrated Self-Evolution)を提案する。
- 参考スコア(独自算出の注目度): 8.780008955074967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-evolving large language models (LLMs) learn by generating their own training tasks and solutions, reducing reliance on human-curated supervision. However, in many reasoning domains, the model must also validate generated tasks and judge generated answers to obtain training signals. This creates a training-signal challenge: erroneous self-judgments become erroneous gradient updates. Existing approaches either rely on external verifiers, which limits generality, or treat noisy self-generated feedback as supervision. We propose COSE (Confidence-Orchestrated Self-Evolution), which uses the LLM's intrinsic confidence as a lightweight uncertainty signal to modulate learning. COSE introduces confidence-weighted PPO updates and confidence-prioritized replay. Across 19 held-out benchmarks and four Qwen/Llama backbones (0.6B--4B), COSE consistently improves over base models and achieves the best average performance in general reasoning and mathematics, while remaining competitive on code. Code and data are available at https://anonymous.4open.science/r/COSE_-B5C2.
- Abstract(参考訳): 自己進化型大規模言語モデル(LLM)は、独自のトレーニングタスクとソリューションを生成し、人事監督への依存を減らすことで学習する。
しかし、多くの推論領域では、モデルは生成されたタスクを検証し、生成された回答を判断してトレーニング信号を取得する必要がある。
誤った自己判断が誤った勾配更新になるのです。
既存のアプローチは、一般性を制限する外部検証に依存するか、あるいはノイズの多い自己生成フィードバックを監督として扱う。
我々は,LLMの本質的信頼度を軽度不確実性信号として用いて学習を変調するCOSE(Confidence-Orchestrated Self-Evolution)を提案する。
COSEは信頼性の高いPPO更新と信頼性を優先したリプレイを導入している。
19のベンチマークと4つのQwen/Llamaバックボーン(0.6B--4B)でCOSEはベースモデルよりも一貫して改善され、一般的な推論や数学において最高の平均性能を達成しつつ、コード上での競争力を維持している。
コードとデータはhttps://anonymous.4open.science/r/COSE_-B5C2で公開されている。
関連論文リスト
- Understanding and Mitigating Premature Confidence for Better LLM Reasoning [76.16007941549857]
現在の言語モデルからの思考の長い連鎖(CoT)は、しばしば論理的ギャップと不正な跳躍を含んでいる。
このような信号は、モデルの信頼性が推論中にどのように進化するかを示す。
これは、モデルを早期にコミットするのではなく、理由によってモデルの信頼性を更新するように訓練する強化学習の目標です。
論文 参考訳(メタデータ) (2026-05-23T04:42:45Z) - PRISM: A Unified Framework for Post-Training LLMs Without Verifiable Rewards [16.15363954575401]
大規模言語モデルの訓練後の現在の技術は、費用のかかる人事監督や外部検証に頼っている。
PRISMは、プロセス・リワード・モデル(Process Reward Model, PRM)を用いて、モデルの内部信頼度とともに学習をガイドする統合トレーニングフレームワークである。
PRMと自己確実性を効果的に組み合わせることで,安定したトレーニングとテスト時間性能の両立が期待できることを示す。
論文 参考訳(メタデータ) (2026-01-08T08:09:29Z) - Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Post-Training Large Language Models via Reinforcement Learning from Self-Feedback [3.73824942136665]
大規模言語モデル(LLM)は、しばしば可算だが校正が不十分な回答を生成する。
本稿では,自己フィードバックによる強化学習(RLSF)について紹介する。
論文 参考訳(メタデータ) (2025-07-29T15:46:26Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。
さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。