論文の概要: Learning to Think Fast and Slow for Visual Language Models
- arxiv url: http://arxiv.org/abs/2511.16670v1
- Date: Thu, 20 Nov 2025 18:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.814656
- Title: Learning to Think Fast and Slow for Visual Language Models
- Title(参考訳): ビジュアル言語モデルのための高速でスローな思考の学習
- Authors: Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou,
- Abstract要約: 本稿では,タスクの難易度に応じて,視覚言語モデルで高速・低速な思考モードを切り替える,シンプルなRLアプローチを提案する。
我々のモデルはDualMindVLMと呼ばれ、ベースモデルよりも大幅に優れ、最先端のビジュアル推論モデルと同等の性能を発揮する。
- 参考スコア(独自算出の注目度): 29.91277432114863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When confronted with complex problems, we tend to think slowly; conversely, for simple questions, we think quickly. Such a two-system thinking mechanism allows us to efficiently allocate cognitive resources, enabling quick decision-making for straightforward issues while reserving deeper analytical thinking for more intricate challenges. However, existing reasoning-oriented visual language models (VLMs), whether trained with explicit chain-of-thought annotations or rule-based RL rewards, mainly pursue lengthy, detailed reasoning chains, which often lead to excessive computational costs. In this work, we propose a simple RL approach, which enables VLMs to automatically switch between fast and slow thinking modes depending on task difficulty. The approach consists of two stages: in the first stage, we label data as either requiring fast thinking or slow thinking based on the model output length, which is inspired by the observation that pre-trained VLMs typically produce answers of varying lengths for different types of questions; in the second stage, we train the model using GRPO along with the thinking mode labels to develop dual-mode thinking. Despite its simplicity, our model, named DualMindVLM, significantly outperforms the base model and achieves performance on par with state-of-the-art visual reasoning models, while maintaining exceptionally high token efficiency.
- Abstract(参考訳): 複雑な問題に直面した場合、私たちはゆっくりと考える傾向があります。
このような2システム思考機構により、認知リソースを効率的に割り当てることができ、より複雑な課題に対してより深い分析的思考を保ちながら、簡単な問題に対する迅速な意思決定を可能にします。
しかしながら、既存の推論指向ビジュアル言語モデル(VLM)は、明示的なチェーン・オブ・シント・アノテーションやルールベースのRL報酬で訓練されたとしても、主に長い詳細な推論・チェーンを追求しており、計算コストが過大になることが多い。
本稿では,タスクの難易度に応じて,VLMが高速な思考モードと低速な思考モードを自動的に切り替えることのできる,シンプルなRLアプローチを提案する。
第1段階では、モデル出力長に基づく高速思考か遅い思考のどちらかをラベル付けする。これは、事前学習されたVLMが通常、様々な種類の質問に対して様々な長さの回答を生成するという観察から着想を得たものであり、第2段階では、GRPOを用いてモデルをトレーニングし、思考モードラベルとともに、二重モード思考を開発する。
その単純さにもかかわらず、我々のモデルはDualMindVLMと呼ばれ、非常に高いトークン効率を維持しながら、ベースモデルを大幅に上回り、最先端のビジュアル推論モデルと同等のパフォーマンスを達成する。
関連論文リスト
- The Virtues of Brevity: Avoid Overthinking in Parallel Test-Time Reasoning [0.7874708385247352]
最短解を選択するための単純かつ直感的手法は極めて有効であることを示す。
このアプローチが自己整合性などの複雑な手法と競合していることを確認する。
論文 参考訳(メタデータ) (2025-10-24T00:47:17Z) - Fast Thinking for Large Language Models [67.7238685892317]
我々は、訓練中にのみ簡潔なCoTスケッチを使用して個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介した。
推論では、コードブックから抽出した少数の連続的思考スイッチのモデル条件を1パスにすることで、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
論文 参考訳(メタデータ) (2025-09-28T04:19:48Z) - Controlling Thinking Speed in Reasoning Models [57.14541748751654]
人間の認知は、高速で直感的なシステム1思考と遅いシステム2思考の2つのモードで動作する。
本研究では,LRMが動的思考速度調整によって人間の知能を近似することを可能にする。
提案手法は, LRMにおける思考速度の制御方法と, 最適性能をいつ調整するかという2つの重要な問題に対処する。
論文 参考訳(メタデータ) (2025-07-04T16:41:06Z) - DynamicMind: A Tri-Mode Thinking System for Large Language Models [28.327075192324234]
DynamicMindは、大規模言語モデルのための新しい三モード思考システムである。
ゼロショットの質問応答タスクに対して,高速,正常,スローの思考モードを自律的に選択する。
性能と計算効率の効果的なトレードオフを確立しつつ、優れたZSQA機能を実現する。
論文 参考訳(メタデータ) (2025-06-06T10:02:13Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - SDRT: Enhance Vision-Language Models by Self-Distillation with Diverse Reasoning Traces [11.462550020102935]
視覚言語モデルのための新しい自己蒸留フレームワークを提案する。
我々は、多様なコンテキスト内質問を生成するために、視覚的推論タスクに適したプロンプトライブラリを採用する。
次に,2段階の推論手法を用いて推論誘導応答を導出する。
これらの反応は自己蒸留に使用され、モデルが推論プロセスの内部化を可能にする。
論文 参考訳(メタデータ) (2025-03-03T17:24:42Z) - DynaThink: Fast or Slow? A Dynamic Decision-Making Framework for Large Language Models [42.95876831743256]
大規模言語モデル(LLM)は、Chains-of-Thoughtプロンプトを通じて、さまざまな推論タスクにまたがる創発的な機能を示している。
本稿では,LLMが高速かつ低速な推論手法を自律的に選択できることの課題に対処する。
LLMが高速に高信頼の解を識別するタスクに指定された「Fast」と、LLMが複雑だと認識するタスクに割り当てられた「Slow」という2つの異なる経路に分類する動的意思決定フレームワークを導入する。
論文 参考訳(メタデータ) (2024-07-01T06:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。