論文の概要: OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation
- arxiv url: http://arxiv.org/abs/2506.02397v1
- Date: Tue, 03 Jun 2025 03:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.21254
- Title: OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation
- Title(参考訳): OThink-R1:過共振抑制のための本質的な高速・スローシンキングモードスイッチング
- Authors: Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang,
- Abstract要約: OThink-R1は論理的妥当性を保ちながら冗長な推論ステップを誘発する手法である。
OThink-R1は、数学的および質問応答タスクにわたる実験により、推論の冗長性を平均で約23%削減することを示した。
- 参考スコア(独自算出の注目度): 33.008513399946914
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advanced large reasoning models (LRMs) leverage extended chain-of-thought (CoT) reasoning to solve complex tasks, achieving state-of-the-art performance. Despite their success, we identify a critical issue: a substantial portion of simple tasks solved by LRMs can also be addressed by non-reasoning LLMs using significantly fewer tokens, indicating the complex reasoning may not always be necessary. To address this, we systematically analyze the reasoning trajectories of LRMs and present a method utilizing identified paradigms and LLM-Judge to classify these trajectories as either Redundant Reasoning or Essential Reasoning. And we introduce OThink-R1, a method that prunes redundant reasoning steps while preserving logical validity. OThink-R1 dynamically employs the non-thinking mode (fast-thinking) for straightforward problems while engaging in deliberate thinking (slow-thinking) for complex problems. Experiments across mathematical and question-answering tasks demonstrate that OThink-R1 reduces reasoning redundancy by almost 23\% on average without compromising accuracy, offering practical guidelines for efficient reasoning models. The code is available at https://github.com/AgenticIR-Lab/OThink-R1.
- Abstract(参考訳): 最近の進歩的大推論モデル(LRM)は、複雑なタスクを解決し、最先端のパフォーマンスを達成するために拡張チェーン・オブ・シークレット(CoT)推論を利用する。
LRMによって解決された単純なタスクのかなりの部分は、トークンをはるかに少なく使用した非推論LLMによっても対処可能であり、複雑な推論が常に必要であるとは限らないことを示している。
そこで我々は, LRMの推論軌道を系統的に解析し, 同定パラダイムとLCM-Judgeを利用してこれらの軌道を冗長推論(reundant Reasoning)あるいは Essential Reasoning(Essential Reasoning)のいずれかに分類する手法を提案する。
OThink-R1は論理的妥当性を保ちながら冗長な推論ステップを誘発する手法である。
OThink-R1は、単純な問題に対して非思考モード(高速思考)を動的に使用し、複雑な問題に対して思慮的思考(スロー思考)を行う。
OThink-R1は精度を損なうことなく平均で23%の推論冗長性を減少させ、効率的な推論モデルのための実用的なガイドラインを提供する。
コードはhttps://github.com/AgenticIR-Lab/OThink-R1で公開されている。
関連論文リスト
- Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL [19.731871225975926]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。
この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。
推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
論文 参考訳(メタデータ) (2025-05-16T04:01:57Z) - S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models [13.083179473480705]
大規模推論モデル(LRM)は、思考の明示的な連鎖を通じて複雑な推論タスクにおいてブレークスルーを達成した。
システム2の思考に大きく依存しているため、システム1の思考能力は制限される可能性がある。
S1-Bench氏は、システム1.1にもっと適した質問に対して、LEMのパフォーマンスを評価するために、単純で多様で自然な質問のスイートを紹介している。
論文 参考訳(メタデータ) (2025-04-14T16:13:23Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。