論文の概要: Reasoning Models Can Be Effective Without Thinking
- arxiv url: http://arxiv.org/abs/2504.09858v1
- Date: Mon, 14 Apr 2025 04:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 23:45:27.728477
- Title: Reasoning Models Can Be Effective Without Thinking
- Title(参考訳): 推論モデルは思考なしで効果的である
- Authors: Wenjie Ma, Jingxuan He, Charlie Snell, Tyler Griggs, Sewon Min, Matei Zaharia,
- Abstract要約: NoThinkingと呼ばれる単純なプロンプトによって思考プロセスをバイパスすることは驚くほど効果的である。
提案手法は,Thinkingと同等のレイテンシで,より長いレイテンシ(最大9倍)でThinkingに匹敵する,一連のベースライン性能を向上する。
- 参考スコア(独自算出の注目度): 45.411955744222524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent LLMs have significantly improved reasoning capabilities, primarily by including an explicit, lengthy Thinking process as part of generation. In this paper, we question whether this explicit thinking is necessary. Using the state-of-the-art DeepSeek-R1-Distill-Qwen, we find that bypassing the thinking process via simple prompting, denoted as NoThinking, can be surprisingly effective. When controlling for the number of tokens, NoThinking outperforms Thinking across a diverse set of seven challenging reasoning datasets--including mathematical problem solving, formal theorem proving, and coding--especially in low-budget settings, e.g., 51.3 vs. 28.9 on ACM 23 with 700 tokens. Notably, the performance of NoThinking becomes more competitive with pass@k as k increases. Building on this observation, we demonstrate that a parallel scaling approach that uses NoThinking to generate N outputs independently and aggregates them is highly effective. For aggregation, we use task-specific verifiers when available, or we apply simple best-of-N strategies such as confidence-based selection. Our method outperforms a range of baselines with similar latency using Thinking, and is comparable to Thinking with significantly longer latency (up to 9x). Together, our research encourages a reconsideration of the necessity of lengthy thinking processes, while also establishing a competitive reference for achieving strong reasoning performance in low-budget settings or at low latency using parallel scaling.
- Abstract(参考訳): 最近のLLMは、主に生成の一部として明示的で長い思考プロセスを含むことによって、推論能力を大幅に改善した。
本稿では,この明示的な思考が必要であるかどうかを問う。
最先端のDeepSeek-R1-Distill-Qwenを使って、NoThinkingと呼ばれる単純なプロンプトによって思考プロセスをバイパスすることは驚くほど効果的である。
トークンの数を制御する場合、NoThinkingは、700のトークンを持つACM 23上の低予算設定、例えば51.3対28.9など、数学的な問題解決、公式な定理証明、コーディングを含む7つの挑戦的推論データセットの多様なセットにおいて、より優れています。
特に、NoThinkingのパフォーマンスは、kが増加するにつれてpass@kと競合するようになる。
この観測に基づいて、NoThinkingを用いてN個の出力を独立に生成し、それらを集約する並列スケーリングアプローチが極めて効果的であることを示す。
集約にはタスク固有の検証器を使用するか、信頼性に基づく選択のような単純なNの戦略を適用する。
提案手法は,Thinkingと同等のレイテンシで,より長いレイテンシ(最大9倍)でThinkingに匹敵する性能を有する。
本研究は,長期的思考プロセスの必要性を再考するとともに,低予算環境や並列スケーリングを用いた低レイテンシ環境での強い推論性能を実現するための競争基準を確立することを目的としている。
関連論文リスト
- LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception [105.78609483419115]
我々はLongPerceptualThoughtsを紹介した。これは知覚タスクのための30Kの長所のトレースを持つ新しい合成データセットである。
本稿では,検証可能な複数の質問を最初に合成する新しい3段階データ合成フレームワークを提案する。
既存の視覚的推論データ生成手法よりも顕著な改善が示された。
論文 参考訳(メタデータ) (2025-04-21T18:10:38Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Z1: Efficient Test-time Scaling with Code [26.374317704720234]
大規模言語モデル(LLM)は、テスト時間コンピューティングのスケーリングを通じて、複雑な問題解決を実現することができる。
本稿では,LLMをコード関連推論軌道上で学習する効率的なテスト時間スケーリング手法を提案する。
オーバヘッドを過度に考慮する新しいシフトドシンキングウィンドウを提案する。
論文 参考訳(メタデータ) (2025-04-01T14:01:50Z) - Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning [8.665713419757061]
マルチモーダル大言語モデル(MLLM)のためのルールベース強化学習微調整(RFT)における思考過程について検討する。
まず,MLLM の思考を促進するために,検証可能な報酬を用いて分類のための CLS-RL を提案する。
実験の結果、CLS-RLはSFTを著しく上回り、"フリーランチ"の一般化効果が得られる(あるデータセットでトレーニングした後、目に見えないデータセットのパフォーマンスを改善する)。
この明示的思考がRFTにとって常に必要であるかどうかを問う。明示的思考はRFTにとって不可欠である、という規則に従えば、単純な等式精度の報酬による思考の最小化を図りながら、No-Thinking-RLを導入する。
論文 参考訳(メタデータ) (2025-03-20T14:37:45Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Generating Chain-of-Thoughts with a Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought [70.30423016640749]
CoT法(Chain-of- Thoughts)は、大規模言語モデルにステップバイステップの推論を誘導し、単純から複雑への問題解決を可能にする手法である。
大規模言語モデル (LLMs) による評価は、一般的にうるさく、信頼できないものであり、将来有望な中間的思考を選択する際の生成過程を誤解させる可能性がある。
本稿では,Vapnikの原理を動機として,ポイントワイドスコアではなくペアワイズ比較評価を用いて,有望な中間思考を探索する。
論文 参考訳(メタデータ) (2024-02-10T09:51:03Z) - Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop
Visual Reasoning [16.495754104540605]
大規模言語モデル(LLM)は、視覚的推論のような複雑な推論タスクのためのコードライクな計画を生成することができる。
ワンストップ推論 (fast) とツリー・オブ・シント (slow) を統合した階層型計画探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-18T16:21:40Z) - End-to-end Algorithm Synthesis with Recurrent Networks: Logical
Extrapolation Without Overthinking [52.05847268235338]
機械学習システムが問題を過度に考えずに論理的外挿を行う方法を示す。
本稿では,問題インスタンスの明示的なコピーをメモリに保持して,それを忘れないようにするリコールアーキテクチャを提案する。
また、モデルが数に固有の行動を学ぶのを防ぎ、無期限に繰り返される行動を学ぶためにモデルをプッシュするプログレッシブトレーニングルーチンも採用しています。
論文 参考訳(メタデータ) (2022-02-11T18:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。