論文の概要: SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs
- arxiv url: http://arxiv.org/abs/2602.06566v1
- Date: Fri, 06 Feb 2026 10:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.346242
- Title: SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs
- Title(参考訳): SPARC: VLMのテスト時間スケーリングのためのパーセプションと推論回路の分離
- Authors: Niccolo Avogaro, Nayanika Debnath, Li Mi, Thomas Frick, Junling Wang, Zexue He, Hang Hua, Konrad Schindler, Mattia Rigotti,
- Abstract要約: 我々は,視覚的知覚を推論から切り離すモジュール型フレームワーク(知覚と推論回路の分離)を導入する。
脳のシーケンシャルな知覚から認知への処理にインスパイアされたこのパイプラインは、2段階のパイプラインを実装し、まずモデルが明示的な視覚探索を行い、質問関連領域をローカライズする。
難しいビジュアル推論ベンチマーク全体において、モノリシックなベースラインと強力なビジュアルグラウンドアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 34.330422211810685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent successes, test-time scaling - i.e., dynamically expanding the token budget during inference as needed - remains brittle for vision-language models (VLMs): unstructured chains-of-thought about images entangle perception and reasoning, leading to long, disorganized contexts where small perceptual mistakes may cascade into completely wrong answers. Moreover, expensive reinforcement learning with hand-crafted rewards is required to achieve good performance. Here, we introduce SPARC (Separating Perception And Reasoning Circuits), a modular framework that explicitly decouples visual perception from reasoning. Inspired by sequential sensory-to-cognitive processing in the brain, SPARC implements a two-stage pipeline where the model first performs explicit visual search to localize question-relevant regions, then conditions its reasoning on those regions to produce the final answer. This separation enables independent test-time scaling with asymmetric compute allocation (e.g., prioritizing perceptual processing under distribution shift), supports selective optimization (e.g., improving the perceptual stage alone when it is the bottleneck for end-to-end performance), and accommodates compressed contexts by running global search at lower image resolutions and allocating high-resolution processing only to selected regions, thereby reducing total visual tokens count and compute. Across challenging visual reasoning benchmarks, SPARC outperforms monolithic baselines and strong visual-grounding approaches. For instance, SPARC improves the accuracy of Qwen3VL-4B on the $V^*$ VQA benchmark by 6.7 percentage points, and it surpasses "thinking with images" by 4.6 points on a challenging OOD task despite requiring a 200$\times$ lower token budget.
- Abstract(参考訳): 近年の成功にもかかわらず、テストタイムのスケーリング(すなわち、推論中にトークンの予算を必要に応じて動的に拡大する)は、視覚言語モデル(VLM)にとって脆弱なままである。
また、優れた性能を達成するためには手作りの報酬を伴う高価な強化学習が必要である。
本稿では,SPARC(Separating Perception and Reasoning Circuits)について紹介する。
SPARCは、脳内の連続的な知覚から認知への処理にインスパイアされ、2段階のパイプラインを実装し、まずモデルが明示的な視覚探索を行い、質問関連領域をローカライズする。
この分離により、非対称な計算割り当てによる独立したテストタイムスケーリング(例えば、分散シフト下での知覚処理の優先順位付け)が可能となり、選択最適化(例えば、エンドツーエンドパフォーマンスのボトルネックである場合の知覚段階のみの改善)をサポートし、低解像度でグローバル検索を行い、選択された領域にのみ高解像度処理を割り当てることで、圧縮されたコンテキストを許容し、総視覚トークン数を削減し、演算を行う。
難しいビジュアル推論ベンチマーク全体において、SPARCはモノリシックなベースラインと強力なビジュアルグラウンドアプローチよりも優れています。
例えば、SPARCは$V^*$VQAベンチマークのQwen3VL-4Bの精度を6.7ポイント改善し、200$\times$ロートークンの予算を必要とするにもかかわらず、挑戦的なOODタスクの4.6ポイントを越えている。
関連論文リスト
- Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - Head-Aware Visual Cropping: Enhancing Fine-Grained VQA with Attention-Guided Subimage [4.771792258699647]
我々は,注目ヘッドの選択的に洗練されたサブセットを活用することにより,視覚的接地を改善する訓練不要な方法であるtextbfHead Visual Cropping (HAVC) を提案する。
複数の微細なVQAベンチマークの実験は、HAVCが最先端の収穫戦略を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-01-30T02:46:55Z) - Look in the Middle: Structural Anchor Pruning for Scalable Visual RAG Indexing [11.750217913598057]
最近のVision-Language Models(例えばColPali)は、細粒度のVisual Document Retrieval(VDR)を実現するが、インデックスベクトルサイズを禁止している。
本研究では,中層からの鍵となる視覚的パッチを識別し,高性能な圧縮を実現するための学習自由プルーニング手法であるStructure Anchor Pruning (SAP)を提案する。
論文 参考訳(メタデータ) (2026-01-27T22:50:11Z) - Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。
エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。
エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2026-01-27T00:46:08Z) - CoV: Chain-of-View Prompting for Spatial Reasoning [64.77921266428824]
CoV(Chain-of-View)は、視覚言語モデルをアクティブな視点推論子に変換する。
我々はOpenEQA上でのCoVの評価を行い、Qwen3-VL-Flashで最大13.62%向上したLLM-Matchで平均+11.56%改善した。
論文 参考訳(メタデータ) (2026-01-08T17:59:42Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models [11.263321053154364]
ERGOは推論駆動の知覚平均化マルチモーダルコンテキストで、どこにフォーカスするかを決定する。
我々は、粗大な知覚のための強化学習フレームワークにおいて、単純で効果的な報酬成分を開発する。
提案手法は,従来のモデルや競合手法よりも精度が高く,効率が向上する。
論文 参考訳(メタデータ) (2025-09-26T07:15:19Z) - Saccadic Vision for Fine-Grained Visual Classification [10.681604440788854]
きめ細かい視覚分類(FGVC)は、微妙で局所的な特徴によって視覚的に類似したカテゴリーを区別する必要がある。
既存のパートベースの手法は、ピクセルからサンプル空間へのマッピングを学習する複雑なローカライゼーションネットワークに依存している。
本稿では,まず周辺特徴を抽出し,サンプルマップを生成する2段階プロセスを提案する。
我々は、周辺と焦点の表現を融合する前に、各固定パッチの影響を定量的に評価するために、文脈選択的注意を用いる。
論文 参考訳(メタデータ) (2025-09-19T07:03:37Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - LoLep: Single-View View Synthesis with Locally-Learned Planes and
Self-Attention Occlusion Inference [66.45326873274908]
本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。
MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
論文 参考訳(メタデータ) (2023-07-23T03:38:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。