Fugu-MT 論文翻訳(概要): Reasoning Models Can Be Effective Without Thinking

論文の概要: Reasoning Models Can Be Effective Without Thinking

arxiv url: http://arxiv.org/abs/2504.09858v1
Date: Mon, 14 Apr 2025 04:08:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 23:45:27.728477
Title: Reasoning Models Can Be Effective Without Thinking
Title（参考訳）: 推論モデルは思考なしで効果的である
Authors: Wenjie Ma, Jingxuan He, Charlie Snell, Tyler Griggs, Sewon Min, Matei Zaharia,
Abstract要約: NoThinkingと呼ばれる単純なプロンプトによって思考プロセスをバイパスすることは驚くほど効果的である。提案手法は,Thinkingと同等のレイテンシで,より長いレイテンシ(最大9倍)でThinkingに匹敵する,一連のベースライン性能を向上する。
参考スコア（独自算出の注目度）: 45.411955744222524
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent LLMs have significantly improved reasoning capabilities, primarily by including an explicit, lengthy Thinking process as part of generation. In this paper, we question whether this explicit thinking is necessary. Using the state-of-the-art DeepSeek-R1-Distill-Qwen, we find that bypassing the thinking process via simple prompting, denoted as NoThinking, can be surprisingly effective. When controlling for the number of tokens, NoThinking outperforms Thinking across a diverse set of seven challenging reasoning datasets--including mathematical problem solving, formal theorem proving, and coding--especially in low-budget settings, e.g., 51.3 vs. 28.9 on ACM 23 with 700 tokens. Notably, the performance of NoThinking becomes more competitive with pass@k as k increases. Building on this observation, we demonstrate that a parallel scaling approach that uses NoThinking to generate N outputs independently and aggregates them is highly effective. For aggregation, we use task-specific verifiers when available, or we apply simple best-of-N strategies such as confidence-based selection. Our method outperforms a range of baselines with similar latency using Thinking, and is comparable to Thinking with significantly longer latency (up to 9x). Together, our research encourages a reconsideration of the necessity of lengthy thinking processes, while also establishing a competitive reference for achieving strong reasoning performance in low-budget settings or at low latency using parallel scaling.
Abstract（参考訳）: 最近のLLMは、主に生成の一部として明示的で長い思考プロセスを含むことによって、推論能力を大幅に改善した。本稿では,この明示的な思考が必要であるかどうかを問う。最先端のDeepSeek-R1-Distill-Qwenを使って、NoThinkingと呼ばれる単純なプロンプトによって思考プロセスをバイパスすることは驚くほど効果的である。トークンの数を制御する場合、NoThinkingは、700のトークンを持つACM 23上の低予算設定、例えば51.3対28.9など、数学的な問題解決、公式な定理証明、コーディングを含む7つの挑戦的推論データセットの多様なセットにおいて、より優れています。特に、NoThinkingのパフォーマンスは、kが増加するにつれてpass@kと競合するようになる。この観測に基づいて、NoThinkingを用いてN個の出力を独立に生成し、それらを集約する並列スケーリングアプローチが極めて効果的であることを示す。集約にはタスク固有の検証器を使用するか、信頼性に基づく選択のような単純なNの戦略を適用する。提案手法は,Thinkingと同等のレイテンシで,より長いレイテンシ(最大9倍)でThinkingに匹敵する性能を有する。本研究は,長期的思考プロセスの必要性を再考するとともに,低予算環境や並列スケーリングを用いた低レイテンシ環境での強い推論性能を実現するための競争基準を確立することを目的としている。

関連論文リスト

Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models [23.642200042199484]
我々は、大規模言語モデル(RLLM)を推論するための文脈内学習(ICL)パラダイムとして、思考を伴う思考(JointThinking)を提案する。提案手法は,思考モードと思考モードの2つの回答を並列に生成する。 JointThinkingは、数発のチェーン・オブ・シークレット・ロバスト性(CoT)と、回答の改善による多数決を著しく上回っている。
論文参考訳（メタデータ） (2025-08-05T12:09:55Z)
Do Thinking Tokens Help or Trap? Towards More Efficient Large Reasoning Model [7.8354921036790275]
大きな推論モデル(LRM)は複雑な問題を解決するのに優れているが、過度なジレンマに直面している。単純なタスクを扱う場合、思考トークンがオーバーロードされた冗長なレスポンスを生成することが多い。これらのトークンは、リフレクションやバックトラックのような不要な高レベルの推論動作を引き起こし、効率を低下させる。
論文参考訳（メタデータ） (2025-06-30T13:30:33Z)
Wait, We Don't Need to "Wait"! Removing Thinking Tokens Improves Reasoning Efficiency [24.56015832583054]
高度な推論には、"Wait" や "Hmm" などのトークンによって信号される明示的な自己回帰が必要である。推論中にこれらのトークンを抑えることで、明示的な自己回帰を無効にする、シンプルで効果的なアプローチであるNoWaitを提案する。
論文参考訳（メタデータ） (2025-06-10T01:54:04Z)
Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models [103.03315678501546]
Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上します。テスト時にもっと考えることは、本当により良い推論につながるのでしょうか? 過度に考える”という理由から,新たな思考による初期パフォーマンス改善の一貫したパターンと,それに続く低下を示す。
論文参考訳（メタデータ） (2025-06-04T17:55:09Z)
A*-Thought: Efficient Reasoning via Bidirectional Compression for Low-Resource Settings [64.36404136352287]
A*-Thoughtは、最も本質的な思考を識別し、分離するために設計された効率的なツリー検索ベースの統合フレームワークである。 LRMの推論過程を探索木として定式化し、各ノードは巨大な推論空間における推論スパンを表す。低予算でQwQ-32Bを2.39$times$で改善し、高予算で出力トークンの長さを50%近く削減できる。
論文参考訳（メタデータ） (2025-05-30T12:58:34Z)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (2025-05-20T16:53:40Z)
LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception [105.78609483419115]
我々はLongPerceptualThoughtsを紹介した。これは知覚タスクのための30Kの長所のトレースを持つ新しい合成データセットである。本稿では,検証可能な複数の質問を最初に合成する新しい3段階データ合成フレームワークを提案する。既存の視覚的推論データ生成手法よりも顕著な改善が示された。
論文参考訳（メタデータ） (2025-04-21T18:10:38Z)
Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文参考訳（メタデータ） (2025-04-18T19:32:55Z)
Z1: Efficient Test-time Scaling with Code [26.374317704720234]
大規模言語モデル(LLM)は、テスト時間コンピューティングのスケーリングを通じて、複雑な問題解決を実現することができる。本稿では,LLMをコード関連推論軌道上で学習する効率的なテスト時間スケーリング手法を提案する。オーバヘッドを過度に考慮する新しいシフトドシンキングウィンドウを提案する。
論文参考訳（メタデータ） (2025-04-01T14:01:50Z)
Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning [8.665713419757061]
マルチモーダル大言語モデル(MLLM)のためのルールベース強化学習微調整(RFT)における思考過程について検討する。まず,MLLM の思考を促進するために,検証可能な報酬を用いて分類のための CLS-RL を提案する。実験の結果、CLS-RLはSFTを著しく上回り、"フリーランチ"の一般化効果が得られる(あるデータセットでトレーニングした後、目に見えないデータセットのパフォーマンスを改善する)。この明示的思考がRFTにとって常に必要であるかどうかを問う。明示的思考はRFTにとって不可欠である、という規則に従えば、単純な等式精度の報酬による思考の最小化を図りながら、No-Thinking-RLを導入する。
論文参考訳（メタデータ） (2025-03-20T14:37:45Z)
Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文参考訳（メタデータ） (2025-01-30T18:58:18Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Generating Chain-of-Thoughts with a Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought [70.30423016640749]
CoT法(Chain-of- Thoughts)は、大規模言語モデルにステップバイステップの推論を誘導し、単純から複雑への問題解決を可能にする手法である。大規模言語モデル (LLMs) による評価は、一般的にうるさく、信頼できないものであり、将来有望な中間的思考を選択する際の生成過程を誤解させる可能性がある。本稿では,Vapnikの原理を動機として,ポイントワイドスコアではなくペアワイズ比較評価を用いて,有望な中間思考を探索する。
論文参考訳（メタデータ） (2024-02-10T09:51:03Z)
Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop Visual Reasoning [16.495754104540605]
大規模言語モデル(LLM)は、視覚的推論のような複雑な推論タスクのためのコードライクな計画を生成することができる。ワンストップ推論 (fast) とツリー・オブ・シント (slow) を統合した階層型計画探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-08-18T16:21:40Z)
End-to-end Algorithm Synthesis with Recurrent Networks: Logical Extrapolation Without Overthinking [52.05847268235338]
機械学習システムが問題を過度に考えずに論理的外挿を行う方法を示す。本稿では,問題インスタンスの明示的なコピーをメモリに保持して,それを忘れないようにするリコールアーキテクチャを提案する。また、モデルが数に固有の行動を学ぶのを防ぎ、無期限に繰り返される行動を学ぶためにモデルをプッシュするプログレッシブトレーニングルーチンも採用しています。
論文参考訳（メタデータ） (2022-02-11T18:43:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。