論文の概要: SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs
- arxiv url: http://arxiv.org/abs/2602.06040v1
- Date: Thu, 05 Feb 2026 18:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.158641
- Title: SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs
- Title(参考訳): SwimBird:ハイブリッド自己回帰MLLMにおけるスイッチング可能な推論モードの回避
- Authors: Jintao Tong, Shilin Yan, Hongwei Xue, Xiaojun Tang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou,
- Abstract要約: スイムバード(SwimBird)は、入力に条件付けされた3つの推論モードのうち、スイッチング可能なMLLMである。
我々は,SwimBirdが従来の固定パターンのマルチモーダル推論手法に比べて,最先端の結果とロバストなゲインを得ることを示す。
- 参考スコア(独自算出の注目度): 27.042422801803344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have made remarkable progress in multimodal perception and reasoning by bridging vision and language. However, most existing MLLMs perform reasoning primarily with textual CoT, which limits their effectiveness on vision-intensive tasks. Recent approaches inject a fixed number of continuous hidden states as "visual thoughts" into the reasoning process and improve visual performance, but often at the cost of degraded text-based logical reasoning. We argue that the core limitation lies in a rigid, pre-defined reasoning pattern that cannot adaptively choose the most suitable thinking modality for different user queries. We introduce SwimBird, a reasoning-switchable MLLM that dynamically switches among three reasoning modes conditioned on the input: (1) text-only reasoning, (2) vision-only reasoning (continuous hidden states as visual thoughts), and (3) interleaved vision-text reasoning. To enable this capability, we adopt a hybrid autoregressive formulation that unifies next-token prediction for textual thoughts with next-embedding prediction for visual thoughts, and design a systematic reasoning-mode curation strategy to construct SwimBird-SFT-92K, a diverse supervised fine-tuning dataset covering all three reasoning patterns. By enabling flexible, query-adaptive mode selection, SwimBird preserves strong textual logic while substantially improving performance on vision-dense tasks. Experiments across diverse benchmarks covering textual reasoning and challenging visual understanding demonstrate that SwimBird achieves state-of-the-art results and robust gains over prior fixed-pattern multimodal reasoning methods.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚と言語による多モーダル認識と推論において顕著な進歩を遂げている。
しかし、既存のほとんどのMLLMは、主にテキストCoTを用いて推論を行い、視覚集約的なタスクの有効性を制限する。
近年のアプローチでは、一定の数の連続した隠れ状態が推論プロセスに「視覚的思考」として注入され、視覚的パフォーマンスが向上するが、しばしば劣化したテキストベースの論理的推論を犠牲にしている。
コア制限は厳密で事前定義された推論パターンであり、異なるユーザクエリに対して最適な思考モダリティを適応的に選択できない、と我々は主張する。
我々は,(1)テキストのみの推論,(2)視覚のみの推論(視覚的思考としての連続的な隠れ状態),(3)視覚のみの推論という3つの推論モードを動的に切り替える推論可能なMLLMであるSwimBirdを紹介する。
この機能を実現するために,視覚的思考の次包埋予測とテキスト思考の次包埋予測を統一するハイブリッド自己回帰式を導入し,3つの推論パターンを網羅した多種多様な微調整データセットであるSwimBird-SFT-92Kを構築するための系統的推論モードキュレーション戦略を設計する。
SwimBirdは柔軟なクエリ適応モード選択を可能にすることで、強力なテキストロジックを保ちながら、視覚的なタスクのパフォーマンスを大幅に向上させる。
テキスト推論と難解な視覚的理解を網羅した多種多様なベンチマーク実験により、SwimBirdは、従来の固定パターンのマルチモーダル推論手法よりも、最先端の結果と堅牢なゲインを達成できることを示した。
関連論文リスト
- ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning [76.95203056566191]
マルチモーダル推論は言語と視覚の反復的調整を必要とするが、何が意味あるインターリーブド思考の連鎖を構成するかは定かではない。
我々はThinkMorphを開発した。ThinkMorphは、視覚的エンゲージメントの異なるタスクにまたがる、約24Kの高品質なインターリーブ付き推論トレースに基づいて微調整された統一モデルだ。
ThinkMorphは、一貫性のある言語論理を維持しながら、視覚的コンテンツを具体的に操作する、プログレッシブなテキストイメージ推論ステップを生成することを学ぶ。
論文 参考訳(メタデータ) (2025-10-30T17:51:38Z) - Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space [66.76138204796497]
マルチモーダル推論は、最終回答に到達する前に中間推論ステップを組み込むことでMLLMの能力を高めることを目的としている。
本稿では,視覚情報とテキスト情報の両方を潜在空間内の推論プロセスに注入するInterleaved Vision-Text Latent Reasoning (IVT-LR)を提案する。
M3CoTとScienceQAの実験により、我々のIVT-LR法は5.45%の精度で平均的な性能向上を実現し、同時に既存の手法に比べて5倍以上の速度向上を実現した。
論文 参考訳(メタデータ) (2025-10-14T14:58:25Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。