論文の概要: Spectral-Progressive Thought Flow for Lightweight Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2606.02842v1
- Date: Mon, 01 Jun 2026 20:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.583129
- Title: Spectral-Progressive Thought Flow for Lightweight Multimodal Reasoning
- Title(参考訳): 軽量マルチモーダル推論のためのスペクトルプログレッシブシントフロー
- Authors: Yixian Shen, Zhiheng Yang, Qi Bi, Changshuo Wang, Shuai Wang, Jia-Hong Huang, George Floros, Prayag Tiwari, Anuj Pathania,
- Abstract要約: 本稿では,新しいマルチモーダル空間推論フレームワークSpectral-Progressive Thought Flowを提案する。
強力なエネルギー圧縮を利用することで、SpecFlowはグローバルなレイアウトとリレーショナル構造を保存する。
SpecFlowは、計算とKVキャッシュコストを最大2.1倍に削減しながら、競争力や優れた推論性能を達成する。
- 参考スコア(独自算出の注目度): 33.95923194828037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal spatial reasoning often relies on long chains of intermediate textual and visual thoughts, where accumulating visual tokens and dense cross-modal attention incur substantial computation and memory overhead. To address this challenge, we propose Spectral-Progressive Thought Flow (SpecFlow), a novel lightweight multimodal spatial reasoning framework that represents intermediate visual thoughts in a fixed-size discrete cosine space. By exploiting strong energy compaction, SpecFlow preserves global layout and relational structure while introducing high-frequency details only when increased spatial precision is required. To align visual state evolution with linguistic intent, classifier-free guidance enables autoregressive textual thoughts to steer flow-based updates of the visual workspace/state without expanding the context. As a result, SpecFlow maintains a bounded visual workspace whose updates depend only on the current visual state and accumulated textual trace, enabling long-horizon inference with stable latency and memory usage independent of reasoning depth. Empirical results show that SpecFlow achieves competitive or superior reasoning performance while reducing computation and KV cache costs by up to 2.1 times.
- Abstract(参考訳): マルチモーダル空間推論は、しばしば中間的なテキストと視覚的思考の長い連鎖に依存し、視覚トークンと密集したクロスモーダルな注意がかなりの計算とメモリオーバーヘッドを引き起こす。
この課題に対処するために、固定サイズの離散コサイン空間における中間的な視覚的思考を表現する軽量なマルチモーダル空間推論フレームワークSpectral-Progressive Thought Flow (SpecFlow)を提案する。
強いエネルギーの圧縮を利用することにより、SpecFlowは、空間精度の向上が必要な場合にのみ、高周波の詳細を導入しながら、グローバルなレイアウトとリレーショナル構造を保ちます。
視覚状態の進化を言語的意図に合わせるために、分類器なし指導は、文脈を拡張することなく、自動回帰的テキスト思考によって視覚ワークスペース/状態のフローベースの更新を操ることができる。
その結果、SpecFlowは、現在の視覚状態と蓄積されたテキストトレースにのみ依存する、境界付きビジュアルワークスペースを維持している。
実証的な結果から、SpecFlowは計算とKVキャッシュコストを最大2.1倍に削減しながら、競争力や優れた推論性能を実現している。
関連論文リスト
- ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both [55.182037225013836]
ATLASは、単一の独立した「ワード」を機能トークンと呼び、エージェント操作と潜在視覚推論ユニットの両方として機能するフレームワークである。
ATLASは、明確な解釈可能性を維持しながら、挑戦的なベンチマークで優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-05-14T17:59:55Z) - SpatialImaginer: Towards Adaptive Visual Imagination for Spatial Reasoning [67.67774742200626]
空間知能は、視覚的な観察から幾何学的および物理的構造を推論する能力を指すもので、大きな言語モデルにとって重要な課題である。
テキスト推論と視覚的想像力を組み合わせた統合型マルチモーダル生成フレームワークを提案する。
本フレームワークでは,高レベルなセマンティックプランニングのためのテキストチェーンと,幾何感応的な状態変換と整合性保存のための視覚的想像力を用いて,分割・対数戦略を採用している。
論文 参考訳(メタデータ) (2026-04-19T11:21:59Z) - Efficient Inference for Large Vision-Language Models: Bottlenecks, Techniques, and Prospects [26.144665202231014]
LVLM(Large Vision-Language Models)は、画像やビデオに対する洗練された推論を可能にするが、その推論は視覚トークン支配として知られるシステム的効率障壁によって妨げられる。
提案手法は,符号化,プリフィル,デコードからなる推論ライフサイクルを中心に構築された効率技術に関する系統分類である。
論文 参考訳(メタデータ) (2026-04-07T07:44:11Z) - Multimodal Latent Reasoning via Hierarchical Visual Cues Injection [16.779425236020433]
この研究は、頑健な推論は潜在空間内で進化し、シームレスにマルチモーダル信号を統合することを示唆している。
表面的な文章の合理性に依存することなく、意図的な「スロー思考」を具現化する新しい枠組みを提案する。
視覚知識を取り入れたテストタイムスケーリングは有効であり,階層的な情報の統合は複雑な場面に対するモデルの理解を著しく向上させることを示す。
論文 参考訳(メタデータ) (2026-02-05T06:31:12Z) - Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。
約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。
トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文 参考訳(メタデータ) (2025-11-24T18:55:19Z) - FlowFeat: Pixel-Dense Embedding of Motion Profiles [51.933932255458906]
FlowFeatは高解像度でマルチタスクの機能表現である。
我々の研究は、信頼性と多目的な高密度画像表現に向けて一歩前進する。
論文 参考訳(メタデータ) (2025-11-10T23:39:53Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。