論文の概要: Wisdom of the Crowd: Reinforcement Learning from Coevolutionary Collective Feedback
- arxiv url: http://arxiv.org/abs/2508.12338v1
- Date: Sun, 17 Aug 2025 11:57:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.691681
- Title: Wisdom of the Crowd: Reinforcement Learning from Coevolutionary Collective Feedback
- Title(参考訳): 群衆の知恵: 進化的集団フィードバックから強化学習
- Authors: Wenzhen Yuan, Shengji Tang, Weihao Lin, Jiacheng Ruan, Ganqu Cui, Bo Zhang, Tao Chen, Ting Liu, Yuzhuo Fu, Peng Ye, Lei Bai,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)の推論能力を大幅に向上させたが、高価な人ラベルデータや複雑な報酬モデルに依存しているためスケーラビリティが著しく制限されている。
進化的集団フィードバック(RLCCF)による強化学習(Reinforcement Learning)を提案する。
- 参考スコア(独自算出の注目度): 33.64877246216574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has significantly enhanced the reasoning capabilities of large language models (LLMs), but its reliance on expensive human-labeled data or complex reward models severely limits scalability. While existing self-feedback methods aim to address this problem, they are constrained by the capabilities of a single model, which can lead to overconfidence in incorrect answers, reward hacking, and even training collapse. To this end, we propose Reinforcement Learning from Coevolutionary Collective Feedback (RLCCF), a novel RL framework that enables multi-model collaborative evolution without external supervision. Specifically, RLCCF optimizes the ability of a model collective by maximizing its Collective Consistency (CC), which jointly trains a diverse ensemble of LLMs and provides reward signals by voting on collective outputs. Moreover, each model's vote is weighted by its Self-Consistency (SC) score, ensuring that more confident models contribute more to the collective decision. Benefiting from the diverse output distributions and complementary abilities of multiple LLMs, RLCCF enables the model collective to continuously enhance its reasoning ability through coevolution. Experiments on four mainstream open-source LLMs across four mathematical reasoning benchmarks demonstrate that our framework yields significant performance gains, achieving an average relative improvement of 16.72\% in accuracy. Notably, RLCCF not only improves the performance of individual models but also enhances the group's majority-voting accuracy by 4.51\%, demonstrating its ability to extend the collective capability boundary of the model collective.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)の推論能力を大幅に向上させたが、高価な人ラベルデータや複雑な報酬モデルに依存しているためスケーラビリティが著しく制限されている。
既存の自己フィードバック手法はこの問題を解決することを目的としているが、それらは単一のモデルの能力に制約されている。
この目的のために,進化的集団フィードバック(RLCCF)による強化学習を提案する。
具体的には、LCCFは、LCMの多様なアンサンブルを共同で訓練し、集団出力に投票することで報酬信号を提供するCC(Collective Consistency)を最大化することで、モデル集合の能力を最適化する。
さらに、各モデルの投票は自己整合性(SC)スコアによって重み付けされ、より確実なモデルが集団的な決定に寄与することを保証する。
多様な出力分布と複数のLCMの相補的能力により、RCCCFはモデル集合が共進化を通じて推論能力を継続的に強化することを可能にする。
4つの数学的推論ベンチマークによる4つの主要なオープンソース LLM の実験により、我々のフレームワークは大きな性能向上をもたらし、16.72倍の精度で平均的な相対的な改善を達成している。
特に、RCCCFは個々のモデルの性能を向上するだけでなく、モデルの集合の集合能力境界を拡張する能力を示すために、グループの多数決の精度を4.51 %向上させる。
関連論文リスト
- RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Post-Training Large Language Models via Reinforcement Learning from Self-Feedback [3.73824942136665]
大規模言語モデル(LLM)は、しばしば可算だが校正が不十分な回答を生成する。
本稿では,自己フィードバックによる強化学習(RLSF)について紹介する。
論文 参考訳(メタデータ) (2025-07-29T15:46:26Z) - Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。
我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。
4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - MeRF: Motivation-enhanced Reinforcement Finetuning for Large Reasoning Models [95.6332110724999]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模言語モデル(LLM)の強化学習を強化する直感的かつ効果的な手法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識して応答を改善するためのコンテキスト内モチベーションとして機能する。
Knights and Knaves(K&K)論理パズル推論ベンチマークに関する実証的な評価は、texttMeRFがベースラインよりもかなりの性能向上を達成することを示した。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - CC-LEARN: Cohort-based Consistency Learning [5.7716971260066]
大規模な言語モデルは一貫性のある堅牢な推論に苦しむ。
コホートに基づく一貫性学習(CC-Learn)を紹介する。
実験により、CC-Learnは事前訓練されたベースラインとSFTベースラインの精度と推論安定性を向上することが示された。
論文 参考訳(メタデータ) (2025-06-18T17:41:28Z) - Crowd-SFT: Crowdsourcing for LLM Alignment [4.648677931378919]
大規模言語モデル(LLM)は、監視された微調整(SFT)と人間フィードバックからの強化学習(RLHF)にますます依存している。
我々は,大規模なアノテータトレーニングを必要とせず,より広範なフィードバック収集を可能にする,クラウドソースのファインチューニングフレームワークを提案する。
本フレームワークは,Shapley値と相関するポイントベース報酬システムを通じてインセンティブフェアネスを促進し,反復モデル更新によるモデル収束を導出する。
論文 参考訳(メタデータ) (2025-06-04T15:26:38Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation [18.815226646364476]
大規模言語モデル(LLM)の既存のキャリブレーション手法は、「集団知恵」を最大限に活用することなく、個人の信頼度を推定または引き出すことに重点を置いている。
我々は,複数ツール強化LDMエージェントの協調的・表現的能力を活用した,ポストホックトレーニングフリーキャリブレーション戦略であるCollaborativeを提案する。
論文 参考訳(メタデータ) (2024-04-14T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。