論文の概要: Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models
- arxiv url: http://arxiv.org/abs/2511.17487v1
- Date: Fri, 21 Nov 2025 18:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.169901
- Title: Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models
- Title(参考訳): ダウンスケーリングインテリジェンス:小さなマルチモーダルモデルにおける知覚と推論ボトルネック
- Authors: Mark Endo, Serena Yeung-Levy,
- Abstract要約: 大規模言語モデル(LLM)の容量削減がマルチモーダル能力に与える影響について検討する。
LLMのダウンスケーリングは、LLMから受け継いだ能力よりも、視覚能力に影響を与える。
我々は視覚的抽出チューニングを導入し、タスク全体にわたって命令関連視覚的詳細を一貫して抽出するようにモデルを明示的に訓練する。
- 参考スコア(独自算出の注目度): 13.301879353093398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling up multimodal models has enabled remarkable advances in visual understanding and reasoning, but practical demands call for smaller, efficient systems. In this work, we conduct a principled analysis of downscaling intelligence in multimodal models, examining how reduced large language model (LLM) capacity affects multimodal capabilities. Our initial findings reveal an interesting trend: LLM downscaling disproportionately affects visual capabilities, rather than abilities inherited from the LLM. We then examine whether this drop mainly reflects the expected decline in visual reasoning or a more fundamental loss of perceptual abilities. Isolating the effect of LLM downscaling on perception, we find performance still drops sharply, often matching or exceeding the impact on reasoning. To address this bottleneck, we introduce visual extraction tuning, which explicitly trains the model to extract instruction-relevant visual details consistently across tasks. With these extracted visual details, we then apply step-by-step reasoning to generate answers. Together, these components form our Extract+Think approach, setting a new standard for efficiency and performance in this space.
- Abstract(参考訳): マルチモーダルモデルのスケールアップは視覚的理解と推論において顕著な進歩をもたらしたが、現実的な要求はより小さく効率的なシステムを要求する。
本研究では,マルチモーダルモデルにおけるダウンスケーリングインテリジェンスの解析を行い,大規模言語モデル(LLM)の能力低下がマルチモーダル能力に与える影響について検討する。
LLMのダウンスケーリングは、LLMから受け継いだ能力よりも、視覚能力に不均等に影響を及ぼす。
次に,この低下は視覚的推論の低下や知覚能力の低下を反映しているかを検討した。
LLMのダウンスケーリングが知覚に与える影響をなくすと、パフォーマンスは依然として急落し、しばしば一致するか、あるいは推論に影響を及ぼす。
このボトルネックに対処するために、視覚的抽出チューニングを導入し、タスク間で一貫した命令関連視覚的詳細を抽出するようにモデルを明示的に訓練する。
これらの抽出された視覚的詳細を用いて、ステップバイステップの推論を適用して回答を生成する。
これらのコンポーネントは共にExtract+Thinkアプローチを形成し、この分野における効率性とパフォーマンスの新たな標準を設定します。
関連論文リスト
- Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs [61.64185573373394]
本稿では,MLLMの本質的不確かさをプロアクティブ誘導信号として用いた学習自由フレームワークを提案する。
応答不確実性によって候補の視覚入力をスコアする統一的なメカニズムを導入し、モデルが最も健全なデータに自律的にフォーカスできるようにする。
本研究は,本質的な不確実性を活用することが,細粒度マルチモーダル性能を高めるための強力で汎用的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-10-01T09:20:51Z) - More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models [17.431298099935344]
大規模言語モデル(LLM)において、推論が重要な機能として現れている。
近年の研究では、視覚言語モデル(VLM)への推論の拡張が試みられている。
本研究は、マルチモーダル推論の二重性を明らかにし、他の基本的な視覚的問題に対する認識障害につながった。
本稿では,視覚的接地軌道に対する推論過程を明確に把握する,シンプルかつ効果的な手法であるビジョン・アンコレッド・ポリシー・オプティマイズ(VAPO)を提案する。
論文 参考訳(メタデータ) (2025-09-30T06:37:47Z) - Revisiting Visual Understanding in Multimodal Reasoning through a Lens of Image Perturbation [38.740533834549716]
言語のみのモデルでは、生の視覚入力を消費するMLLMと同等またはそれ以上の性能が得られることを示す。
そこで我々は,アルゴリズムの修正を必要とせず,知覚の堅牢性を高めるシンプルな視覚摂動フレームワークを提案する。
本研究は,マルチモーダル数学的推論における視覚摂動の重要性を明らかにするものである。
論文 参考訳(メタデータ) (2025-06-11T13:39:46Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。