Fugu-MT 論文翻訳(概要): OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

論文の概要: OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

arxiv url: http://arxiv.org/abs/2506.02397v1
Date: Tue, 03 Jun 2025 03:31:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.21254
Title: OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation
Title（参考訳）: OThink-R1:過共振抑制のための本質的な高速・スローシンキングモードスイッチング
Authors: Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang,
Abstract要約: OThink-R1は論理的妥当性を保ちながら冗長な推論ステップを誘発する手法である。 OThink-R1は、数学的および質問応答タスクにわたる実験により、推論の冗長性を平均で約23%削減することを示した。
参考スコア（独自算出の注目度）: 33.008513399946914
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advanced large reasoning models (LRMs) leverage extended chain-of-thought (CoT) reasoning to solve complex tasks, achieving state-of-the-art performance. Despite their success, we identify a critical issue: a substantial portion of simple tasks solved by LRMs can also be addressed by non-reasoning LLMs using significantly fewer tokens, indicating the complex reasoning may not always be necessary. To address this, we systematically analyze the reasoning trajectories of LRMs and present a method utilizing identified paradigms and LLM-Judge to classify these trajectories as either Redundant Reasoning or Essential Reasoning. And we introduce OThink-R1, a method that prunes redundant reasoning steps while preserving logical validity. OThink-R1 dynamically employs the non-thinking mode (fast-thinking) for straightforward problems while engaging in deliberate thinking (slow-thinking) for complex problems. Experiments across mathematical and question-answering tasks demonstrate that OThink-R1 reduces reasoning redundancy by almost 23\% on average without compromising accuracy, offering practical guidelines for efficient reasoning models. The code is available at https://github.com/AgenticIR-Lab/OThink-R1.
Abstract（参考訳）: 最近の進歩的大推論モデル(LRM)は、複雑なタスクを解決し、最先端のパフォーマンスを達成するために拡張チェーン・オブ・シークレット(CoT)推論を利用する。 LRMによって解決された単純なタスクのかなりの部分は、トークンをはるかに少なく使用した非推論LLMによっても対処可能であり、複雑な推論が常に必要であるとは限らないことを示している。そこで我々は, LRMの推論軌道を系統的に解析し, 同定パラダイムとLCM-Judgeを利用してこれらの軌道を冗長推論(reundant Reasoning)あるいは Essential Reasoning(Essential Reasoning)のいずれかに分類する手法を提案する。 OThink-R1は論理的妥当性を保ちながら冗長な推論ステップを誘発する手法である。 OThink-R1は、単純な問題に対して非思考モード(高速思考)を動的に使用し、複雑な問題に対して思慮的思考(スロー思考)を行う。 OThink-R1は精度を損なうことなく平均で23%の推論冗長性を減少させ、効率的な推論モデルのための実用的なガイドラインを提供する。コードはhttps://github.com/AgenticIR-Lab/OThink-R1で公開されている。

関連論文リスト

Towards Concise and Adaptive Thinking in Large Reasoning Models: A Survey [8.736170026262279]
OpenAI o1やDeepSeek R1のような大きな推論モデル(LRM)は、複雑な推論タスクにおいて印象的なパフォーマンスを示している。これらのモデルもまた、不要な長さと冗長な推論チェーンを生成するという大きな課題に直面しています。
論文参考訳（メタデータ） (2025-07-13T14:51:59Z)
Think How to Think: Mitigating Overthinking with Autonomous Difficulty Cognition in Large Reasoning Models [12.618562275265704]
近年のLarge Reasoning Models (LRMs) は複雑な推論タスクに優れるが、しばしば過度な思考に悩まされる。本稿では,LRMの難易度認識と冗長性認知を段階的に刺激する,新しい2段階の微調整戦略であるThink-How-to-Think(TH2T)を提案する。
論文参考訳（メタデータ） (2025-07-03T14:24:26Z)
From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval [22.35942074715463]
Chain-of-Thought (CoT) は大規模言語モデル(LLM)において複雑な推論を可能にする本稿では,個別動作からなる遷移型推論フレームワークであるState Machine Reasoning (SMR)を提案する。 BEIRとBRIGHTベンチマークの実験では、SMRは検索性能(nDCG@10)を3.4%改善し、トークン使用量を74.4%削減した。
論文参考訳（メタデータ） (2025-05-29T04:04:25Z)
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。 1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文参考訳（メタデータ） (2025-05-28T06:24:45Z)
Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (2025-05-20T16:53:40Z)
Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL [19.731871225975926]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
論文参考訳（メタデータ） (2025-05-16T04:01:57Z)
S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models [13.083179473480705]
大規模推論モデル(LRM)は、思考の明示的な連鎖を通じて複雑な推論タスクにおいてブレークスルーを達成した。システム2の思考に大きく依存しているため、システム1の思考能力は制限される可能性がある。 S1-Bench氏は、システム1.1にもっと適した質問に対して、LEMのパフォーマンスを評価するために、単純で多様で自然な質問のスイートを紹介している。
論文参考訳（メタデータ） (2025-04-14T16:13:23Z)
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文参考訳（メタデータ） (2025-01-30T18:58:18Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文参考訳（メタデータ） (2024-02-06T03:41:12Z)
LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-07T20:36:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。