論文の概要: Learning from Peers in Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.07787v1
- Date: Mon, 12 May 2025 17:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.522925
- Title: Learning from Peers in Reasoning Models
- Title(参考訳): 推論モデルにおけるピアからの学習
- Authors: Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang,
- Abstract要約: 大きな推論モデル(LRM)は、推論パスでミスをしても自己修正する能力を持つ。
我々の研究は、推論プロセスが短いが貧弱な開始から始まると、モデルが回復することが困難になることを示している。
ピアインタラクションが、すでに正確な個人に悪影響を及ぼすことなく自己補正を促進するという心理学的な知見に触発されて、この現象に対処するために、 **Learning from Peers**(LeaP)を提案する。
- 参考スコア(独自算出の注目度): 30.683206230784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have the ability to self-correct even when they make mistakes in their reasoning paths. However, our study reveals that when the reasoning process starts with a short but poor beginning, it becomes difficult for the model to recover. We refer to this phenomenon as the "Prefix Dominance Trap". Inspired by psychological findings that peer interaction can promote self-correction without negatively impacting already accurate individuals, we propose **Learning from Peers** (LeaP) to address this phenomenon. Specifically, every tokens, each reasoning path summarizes its intermediate reasoning and shares it with others through a routing mechanism, enabling paths to incorporate peer insights during inference. However, we observe that smaller models sometimes fail to follow summarization and reflection instructions effectively. To address this, we fine-tune them into our **LeaP-T** model series. Experiments on AIME 2024, AIME 2025, AIMO 2025, and GPQA Diamond show that LeaP provides substantial improvements. For instance, QwQ-32B with LeaP achieves nearly 5 absolute points higher than the baseline on average, and surpasses DeepSeek-R1-671B on three math benchmarks with an average gain of 3.3 points. Notably, our fine-tuned LeaP-T-7B matches the performance of DeepSeek-R1-Distill-Qwen-14B on AIME 2024. In-depth analysis reveals LeaP's robust error correction by timely peer insights, showing strong error tolerance and handling varied task difficulty. LeaP marks a milestone by enabling LRMs to collaborate during reasoning. Our code, datasets, and models are available at https://learning-from-peers.github.io/ .
- Abstract(参考訳): 大きな推論モデル(LRM)は、推論パスでミスをしても自己修正する能力を持つ。
しかし,本研究では,推論プロセスの開始時期が短いが,開始時期が低くなると,モデルが回復することが困難になることを明らかにした。
この現象を「Prefix Dominance Trap」と呼ぶ。
ピアインタラクションが、すでに正確な個人に悪影響を及ぼすことなく自己補正を促進するという心理学的な知見に触発されて、この現象に対処するために、 **Learning from Peers**(LeaP)を提案する。
具体的には、各トークン、それぞれの推論パスがその中間的推論を要約し、ルーティングメカニズムを通じて他のトークンと共有することで、推論中にピアインサイトを組み込むことができる。
しかし、より小さなモデルでは、しばしば要約と反射命令を効果的に追従できないことが観察される。
これを解決するために、我々はそれらを **LeaP-T* モデルシリーズに微調整する。
AIME 2024、AIME 2025、AIMO 2025、GPQA Diamondの実験では、LeaPが大幅に改善されている。
例えば、LeaP を用いた QwQ-32B は平均ベースラインよりも5つの絶対点が高く、平均3.3ポイントの3つのベンチマークで DeepSeek-R1-671B を上回っている。
AIME 2024におけるDeepSeek-R1-Distill-Qwen-14Bのパフォーマンスと、我々の微調整LeaP-T-7Bは一致しています。
詳細な分析では、LeaPの堅牢なエラー訂正をタイムリーなピアインサイト(英語版)によって明らかにし、強いエラー耐性を示し、様々なタスクの難しさに対処する。
LeaPは、LRMが推論中にコラボレーションできるようにすることでマイルストーンを達成している。
私たちのコード、データセット、モデルはhttps://learning-from-peers.github.io/で公開されています。
関連論文リスト
- Logit Arithmetic Elicits Long Reasoning Capabilities Without Training [14.015546463427732]
大きな推論モデル(LRM)は、バックトラックや自己補正といった認知戦略を含む長いチェーン・オブ・シント(CoT)を介して複雑な推論を行うことができる。
最近の研究は、いくつかのモデルは本質的にこれらの長い推論能力を持ち、余分な訓練によって解錠される可能性があることを示唆している。
本稿では,より小さなモデルをガイドとして,目標とする大規模LMを長時間の推論のために調整するための復号時間アプローチであるThinkLogitを提案する。
論文 参考訳(メタデータ) (2025-07-17T03:31:36Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [43.310209758380886]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - Are DeepSeek R1 And Other Reasoning Models More Faithful? [2.0429566123690455]
我々は,Qwen-2.5,Gemini-2,DeepSeek-V3-Baseの3つの推論モデルを評価する。
MMLU質問に対する解答に、その解答がどう影響するかをモデルで記述できるかどうかを検証する。
推論モデルは、テストされたすべての非推論モデルよりもはるかに確実にそれらに影響を与えるキューを記述する。
論文 参考訳(メタデータ) (2025-01-14T14:31:45Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。