論文の概要: Incentivizing Strong Reasoning from Weak Supervision
- arxiv url: http://arxiv.org/abs/2505.20072v2
- Date: Wed, 28 May 2025 09:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.754784
- Title: Incentivizing Strong Reasoning from Weak Supervision
- Title(参考訳): 弱スーパービジョンからの強い推論のインセンティブ
- Authors: Yige Yuan, Teng Xiao, Shuchang Tao, Xue Wang, Jinyang Gao, Bolin Ding, Bingbing Xu,
- Abstract要約: 大規模言語モデル (LLM) は推論集約的なタスクにおいて顕著な性能を示した。
推論能力の向上は一般的に、検証可能な信号を持つ強化学習(RL)か、高品質な長いチェーン・オブ・シンク(CoT)のデモンストレーションを持つ教師付き微調整(SFT)のいずれかに依存している。
高価で高品質な実演や強化学習を伴わないLCMの推論能力にインセンティブを与える新たな課題について検討する。
- 参考スコア(独自算出の注目度): 37.44809163600628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive performance on reasoning-intensive tasks, but enhancing their reasoning abilities typically relies on either reinforcement learning (RL) with verifiable signals or supervised fine-tuning (SFT) with high-quality long chain-of-thought (CoT) demonstrations, both of which are expensive. In this paper, we study a novel problem of incentivizing the reasoning capacity of LLMs without expensive high-quality demonstrations and reinforcement learning. We investigate whether the reasoning capabilities of LLMs can be effectively incentivized via supervision from significantly weaker models. We further analyze when and why such weak supervision succeeds in eliciting reasoning abilities in stronger models. Our findings show that supervision from significantly weaker reasoners can substantially improve student reasoning performance, recovering close to 94% of the gains of expensive RL at a fraction of the cost. Experiments across diverse benchmarks and model architectures demonstrate that weak reasoners can effectively incentivize reasoning in stronger student models, consistently improving performance across a wide range of reasoning tasks. Our results suggest that this simple weak-to-strong paradigm is a promising and generalizable alternative to costly methods for incentivizing strong reasoning capabilities at inference-time in LLMs. The code is publicly available at https://github.com/yuanyige/w2sr.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論集約的なタスクにおいて顕著なパフォーマンスを示しているが、その推論能力の向上は一般的に、検証可能な信号を持つ強化学習(RL)か、高品質な長いチェーン・オブ・シンク(CoT)デモを持つ教師付き微調整(SFT)のいずれかに依存している。
本稿では,高品位な実演や強化学習を伴わずにLCMの推論能力を高める新たな課題について検討する。
我々は,LLMの推論能力が,より弱いモデルからの監督を通じて効果的にインセンティブを得ることができるかどうかを検討する。
より強力なモデルにおいて、そのような弱い監督が推論能力を引き出すのにいつ、なぜ成功するのかをさらに分析する。
本研究は, 学生の推論性能を著しく向上させ, 高価なRLの利益の94%近くを, 低コストで回収できることを示唆した。
多様なベンチマークとモデルアーキテクチャによる実験により、弱い推論者はより強力な学生モデルにおける推論を効果的にインセンティブ化し、幅広い推論タスクにおけるパフォーマンスを継続的に改善できることを示した。
提案手法は,LLMにおける推論時間における強い推論能力を動機付けるための,コストのかかる手法に代わる,有望かつ一般化可能な代替手段であることが示唆された。
コードはhttps://github.com/yuanyige/w2sr.comで公開されている。
関連論文リスト
- OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Towards Reasoning Ability of Small Language Models [3.732224317444325]
我々は,小言語モデル (SLM) が競争力のある推論性能を実現できることを示す。
14の推論ベンチマークで6つのモデルファミリーから72のSLMを体系的に調査し、ベンチマークし、分析した。
我々の発見は、スケーリングが強力な推論を達成する唯一の方法である、という仮定に挑戦する。
論文 参考訳(メタデータ) (2025-02-17T08:59:16Z) - Can formal argumentative reasoning enhance LLMs performances? [0.3659498819753633]
本稿では,Large Language Models (LLM) の性能に及ぼす計算論証セマンティクスの導入効果を評価するパイプライン (MQArgEng) を提案する。
調査の結果、MQArgEngは、調査対象のトピックのカテゴリの大部分で適度なパフォーマンス向上をもたらし、将来性を示し、さらなる研究を保証していることが示された。
論文 参考訳(メタデータ) (2024-05-16T22:09:31Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
大規模言語モデル(LLM)から推論能力を引き出すための有望な手法として思考の連鎖が出現する
我々は,LLMにおける問題指導,推論,解答の関係を理解するために因果解析を用いる。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。
複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。
本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。