論文の概要: DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution
- arxiv url: http://arxiv.org/abs/2601.13761v2
- Date: Wed, 21 Jan 2026 04:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 14:57:00.257162
- Title: DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution
- Title(参考訳): DARC: LLM進化のための非対称推論カリキュラム
- Authors: Shengda Fan, Xuyan Ye, Yankai Lin,
- Abstract要約: DARC(Decoupled Asymmetric Reasoning Curriculum)は,自己進化過程を安定化する2段階のフレームワークである。
DARCはモデルに依存しないので、9つの推論ベンチマークと3つのバックボーンモデルで平均10.9ポイントの改善が得られる。
- 参考スコア(独自算出の注目度): 38.660154251426505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-play with large language models has emerged as a promising paradigm for achieving self-improving artificial intelligence. However, existing self-play frameworks often suffer from optimization instability, due to (i) non-stationary objectives induced by solver-dependent reward feedback for the Questioner, and (ii) bootstrapping errors from self-generated pseudo-labels used to supervise the Solver. To mitigate these challenges, we introduce DARC (Decoupled Asymmetric Reasoning Curriculum), a two-stage framework that stabilizes the self-evolution process. First, we train the Questioner to synthesize difficulty-calibrated questions, conditioned on explicit difficulty levels and external corpora. Second, we train the Solver with an asymmetric self-distillation mechanism, where a document-augmented teacher generates high-quality pseudo-labels to supervise the student Solver that lacks document access. Empirical results demonstrate that DARC is model-agnostic, yielding an average improvement of 10.9 points across nine reasoning benchmarks and three backbone models. Moreover, DARC consistently outperforms all baselines and approaches the performance of fully supervised models without relying on human annotations. The code is available at https://github.com/RUCBM/DARC.
- Abstract(参考訳): 大規模言語モデルによるセルフプレイは、自己改善人工知能を実現するための有望なパラダイムとして浮上している。
しかし、既存のセルフプレイフレームワークは、しばしば最適化の不安定さに悩まされる。
一 質問者に対する解決者依存報酬のフィードバックにより引き起こされた非定常目標
(ii)ソルバーを監督するために用いられる自己生成擬似ラベルからのブートストラップエラー。
これらの課題を軽減するために,自己進化過程を安定化させる2段階のフレームワークであるDARC(Decoupled Asymmetric Reasoning Curriculum)を導入する。
まず,難易度と外部コーパスを条件に,難易度を分類した質問を合成する。
第2に、文書増補教師が高品質な擬似ラベルを生成し、文書アクセスに欠ける学生ソルバーを監督する非対称な自己蒸留機構でソルバーを訓練する。
実証的な結果は、DARCがモデルに依存しないことを示し、9つの推論ベンチマークと3つのバックボーンモデルで平均10.9ポイントの改善が得られる。
さらに、DARCは、すべてのベースラインを一貫して上回り、人間のアノテーションに頼ることなく、完全に教師付きモデルのパフォーマンスにアプローチする。
コードはhttps://github.com/RUCBM/DARCで公開されている。
関連論文リスト
- Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.119219532863767]
思考段階の怠慢な推論は 指示の順守に 寄与する主要な要因だ
本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。
私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文 参考訳(メタデータ) (2025-08-05T07:42:00Z) - Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models [56.055015597319674]
検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力の向上に有効である
近年の自己回帰法は LLM の推論能力を解き放つためのラベルフリーな代替手段について検討している。
我々は、他の視点から補完的な監督を求めることにより、トレーニングの安定性を向上させる新しい自己監督型RLフレームワークであるtextitCo-rewardingを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:09:14Z) - Self-rewarding correction for mathematical reasoning [19.480508580498103]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。
LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。
本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-26T23:01:16Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。