論文の概要: CORE: Collaborative Reasoning via Cross Teaching
- arxiv url: http://arxiv.org/abs/2601.21600v1
- Date: Thu, 29 Jan 2026 12:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.78942
- Title: CORE: Collaborative Reasoning via Cross Teaching
- Title(参考訳): CORE:クロストレーニングによる協調推論
- Authors: Kshitij Mishra, Mirat Aubakirov, Martin Takac, Nils Lukas, Salem Lahlou,
- Abstract要約: Collaborative Reasoning (CORE)は、ピア成功を学習信号に変換するトレーニングタイムコラボレーションフレームワークである。
GSM8K, MATH, AIME, GPQAの4つの標準推論データセットでCOREを評価する。
- 参考スコア(独自算出の注目度): 11.841736034560187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models exhibit complementary reasoning errors: on the same instance, one model may succeed with a particular decomposition while another fails. We propose Collaborative Reasoning (CORE), a training-time collaboration framework that converts peer success into a learning signal via a cross-teaching protocol. Each problem is solved in two stages: a cold round of independent sampling, followed by a contexted rescue round in which models that failed receive hint extracted from a successful peer. CORE optimizes a combined reward that balances (i) correctness, (ii) a lightweight DPP-inspired diversity term to reduce error overlap, and (iii) an explicit rescue bonus for successful recovery. We evaluate CORE across four standard reasoning datasets GSM8K, MATH, AIME, and GPQA. With only 1,000 training examples, a pair of small open source models (3B+4B) reaches Pass@2 of 99.54% on GSM8K and 92.08% on MATH, compared to 82.50% and 74.82% for single-model training. On harder datasets, the 3B+4B pair reaches Pass@2 of 77.34% on GPQA (trained on 348 examples) and 79.65% on AIME (trained on 792 examples), using a training-time budget of at most 1536 context tokens and 3072 generated tokens. Overall, these results show that training-time collaboration can reliably convert model complementarity into large gains without scaling model size.
- Abstract(参考訳): 大規模言語モデルは相補的推論エラーを示し、同じ場合、あるモデルは特定の分解で成功し、別のモデルは失敗する。
我々は、相互学習プロトコルを介してピア成功を学習信号に変換する訓練時協調フレームワーク、Collaborative Reasoning (CORE)を提案する。
それぞれの問題は、コールドラウンドの独立したサンプリングと、失敗するモデルが成功したピアからヒントを抽出するコンテキスト付き救済ラウンドの2段階で解決される。
COREがバランスの取れた報酬を最適化
(i)正確さ
(二)DPPに端を発する軽量な多様性用語でエラー重複を低減すること。
三 回収を成功させるための明示的な救済ボーナス
GSM8K, MATH, AIME, GPQAの4つの標準推論データセットでCOREを評価する。
1000のトレーニング例だけで、小さなオープンソースモデル(3B+4B)がGSM8Kで99.54%、MATHで92.08%、シングルモデルトレーニングで82.50%、74.82%に達した。
より厳しいデータセットでは、3B+4BペアがGPQA(348例でトレーニング)で77.34%、AIME(792例でトレーニング)で79.65%に達した。
これらの結果から,モデルのサイズをスケールすることなく,モデルの相補性を確実に大きなゲインに変換することが可能であることが示唆された。
関連論文リスト
- Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.91743732150233]
一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。
我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。
Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文 参考訳(メタデータ) (2025-08-05T16:28:22Z) - Breaking the Batch Barrier (B3) of Contrastive Learning via Smart Batch Mining [72.7687229261317]
B3(Breaking the Batch Barrier)は、コントラスト学習(CL)のための高品質なバッチをキュレートする新しいバッチ構築戦略である。
提案手法は,7B と 2B のモデルスケールにおいて,従来のベストメソッドを+1.3 と +2.9 で上回り,新しい最先端の手法を設定できる。
特に、B3でトレーニングされたモデルは、バッチサイズが64まで小さくても、既存の最先端の結果を上回る。
論文 参考訳(メタデータ) (2025-05-16T14:25:43Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - COLO: A Contrastive Learning based Re-ranking Framework for One-Stage
Summarization [84.70895015194188]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。
COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文 参考訳(メタデータ) (2022-09-29T06:11:21Z) - CaCo: Both Positive and Negative Samples are Directly Learnable via
Cooperative-adversarial Contrastive Learning [45.68097757313092]
クエリアンカーが与えられた負のサンプルと正のサンプルを区別することで、エンコーダを訓練する。
比較損失の最小化と最大化により, 正および負のサンプルを協調的に, 対角的に学習できることが示唆された。
提案手法は、ImageNet1K上で事前トレーニングされたResNet-50バックボーンの200と800のエポックに対して、トップ1の精度で71.3%と75.3%を達成する。
論文 参考訳(メタデータ) (2022-03-27T18:50:39Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。