論文の概要: SketchThinker-R1: Towards Efficient Sketch-Style Reasoning in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2601.02825v1
- Date: Tue, 06 Jan 2026 08:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.862564
- Title: SketchThinker-R1: Towards Efficient Sketch-Style Reasoning in Large Multimodal Models
- Title(参考訳): SketchThinker-R1:大規模マルチモーダルモデルにおける効率的なSketch-Style推論に向けて
- Authors: Ruiyang Zhang, Dongzhan Zhou, Zhedong Zheng,
- Abstract要約: SketchThinker-R1は、大規模なマルチモーダルモデルにおいてスケッチスタイルの推論能力にインセンティブを与える。
本手法は,3つの基本段階から構成される。Sketch-Mode Cold Startの段階では,標準長推論処理をスケッチ型推論に変換する。
次に、モデルの思考プロセスを明確に評価し、スケッチスタイルの推論により高いスコアを割り当てるSketchJudge Reward Modelを訓練する。
- 参考スコア(独自算出の注目度): 26.220191872511965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the empirical success of extensive, step-by-step reasoning in large multimodal models, long reasoning processes inevitably incur substantial computational overhead, i.e., in terms of higher token costs and increased response time, which undermines inference efficiency. In contrast, humans often employ sketch-style reasoning: a concise, goal-directed cognitive process that prioritizes salient information and enables efficient problem-solving. Inspired by this cognitive efficiency, we propose SketchThinker-R1, which incentivizes sketch-style reasoning ability in large multimodal models. Our method consists of three primary stages. In the Sketch-Mode Cold Start stage, we convert standard long reasoning process into sketch-style reasoning and finetune base multimodal model, instilling initial sketch-style reasoning capability. Next, we train SketchJudge Reward Model, which explicitly evaluates thinking process of model and assigns higher scores to sketch-style reasoning. Finally, we conduct Sketch-Thinking Reinforcement Learning under supervision of SketchJudge to further generalize sketch-style reasoning ability. Experimental evaluation on four benchmarks reveals that our SketchThinker-R1 achieves over 64% reduction in reasoning token cost without compromising final answer accuracy. Qualitative analysis further shows that sketch-style reasoning focuses more on key cues during problem solving.
- Abstract(参考訳): 大規模なマルチモーダルモデルにおける広範なステップバイステップ推論の実証的な成功にもかかわらず、長い推論プロセスは必然的に相当な計算オーバーヘッド、すなわちトークンコストの増大と応答時間の増大を招き、推論効率を損なう。
対照的に、人間はスケッチスタイルの推論をしばしば採用する: 簡潔でゴール指向の認知プロセスで、健全な情報を優先し、効率的な問題解決を可能にする。
この認知効率に着想を得たSketchThinker-R1を提案する。
私たちの方法は3つの主要な段階から成り立っている。
Sketch-Mode Cold Startの段階では、標準的なロング推論プロセスをスケッチスタイルの推論とファインチューンベースマルチモーダルモデルに変換し、初期スケッチスタイルの推論能力を補う。
次に、モデルの思考プロセスを明確に評価し、スケッチスタイルの推論により高いスコアを割り当てるSketchJudge Reward Modelを訓練する。
最後に,SketchJudgeの監督下でSketch-Thinking Reinforcement Learningを実施し,スケッチスタイル推論能力をさらに一般化する。
4つのベンチマーク実験の結果,SketchThinker-R1は最終回答精度を損なうことなく,トークンコストの推算を64%以上削減できることがわかった。
定性的な分析は、スケッチスタイルの推論が問題解決の鍵となる手がかりに焦点を当てていることをさらに示している。
関連論文リスト
- The Zero-Step Thinking: An Empirical Study of Mode Selection as Harder Early Exit in Reasoning Models [26.940600916534446]
モード選択は、ThinkingモードまたはNoThinkingモードを利用することで、Long-CoT(Chain-of-Thought)とShort-CoTを自動で決定することを目的としている。
我々は,手作りの情報を最小限に抑えると,限られた分類能力のために,プロンプトベースのアプローチが失敗することが多いことを観察する。
その結果,モデルが提供する情報のみに依存する既存の手法では,モード選択を効果的に扱うには不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T02:28:10Z) - Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs [103.0226977561914]
大規模言語モデルにおけるステップバイステップの視覚的推論を促進するための包括的フレームワークを提案する。
マルチステップ推論タスクの評価に特化して設計された視覚推論ベンチマークを導入する。
第二に,個々のステップの粒度で視覚的推論品質を評価する新しい指標を提案する。
第3に、マルチステップのカリキュラム学習アプローチを用いて学習したLlamaV-o1という新しいマルチモーダル視覚推論モデルを提案する。
論文 参考訳(メタデータ) (2025-01-10T18:59:51Z) - Deep Sketch-Based Modeling: Tips and Tricks [48.800828637514066]
スケッチと画像入力の主な違いは, (i) スタイルのばらつき, (ii) 視点, (iii) 空間性である。
我々は、一組の深層画像モデリングソリューションを比較し、スケッチ入力に対処するために、それらのパフォーマンスをどのように改善できるかを示す。
論文 参考訳(メタデータ) (2020-11-12T00:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。