論文の概要: Counting Circuits: Mechanistic Interpretability of Visual Reasoning in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.18523v1
- Date: Thu, 19 Mar 2026 06:10:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.977684
- Title: Counting Circuits: Mechanistic Interpretability of Visual Reasoning in Large Vision-Language Models
- Title(参考訳): 計数回路:大規模視覚言語モデルにおける視覚推論の機械論的解釈可能性
- Authors: Liwei Che, Zhiyu Xue, Yihao Quan, Benlin Liu, Zeru Shi, Michelle Hurst, Jacob Feldman, Ruixiang Tang, Ranjay Krishna, Vladimir Pavlovic,
- Abstract要約: カウントは、LVLM(Large Vision-Language Model)推論の強力なテストとして機能する。
その結果,LVLMは人間的なカウント動作を示し,小数量での精度の高い性能と,大量でのノイズ評価が可能であることがわかった。
本稿では,単純かつ豊富に利用可能な合成画像を利用して任意の事前学習LVLMを微調整する,軽量な介入戦略を提案する。
- 参考スコア(独自算出の注目度): 35.71430064413904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counting serves as a simple but powerful test of a Large Vision-Language Model's (LVLM's) reasoning; it forces the model to identify each individual object and then add them all up. In this study, we investigate how LVLMs implement counting using controlled synthetic and real-world benchmarks, combined with mechanistic analyses. Our results show that LVLMs display a human-like counting behavior, with precise performance on small numerosities and noisy estimation for larger quantities. We introduce two novel interpretability methods, Visual Activation Patching and HeadLens, and use them to uncover a structured "counting circuit" that is largely shared across a variety of visual reasoning tasks. Building on these insights, we propose a lightweight intervention strategy that exploits simple and abundantly available synthetic images to fine-tune arbitrary pretrained LVLMs exclusively on counting. Despite the narrow scope of this fine-tuning, the intervention not only enhances counting accuracy on in-distribution synthetic data, but also yields an average improvement of +8.36% on out-of-distribution counting benchmarks and an average gain of +1.54% on complex, general visual reasoning tasks for Qwen2.5-VL. These findings highlight the central, influential role of counting in visual reasoning and suggest a potential pathway for improving overall visual reasoning capabilities through targeted enhancement of counting mechanisms.
- Abstract(参考訳): カウントは、LVLM(Large Vision-Language Model's)推論の単純かつ強力なテストとして機能する。
本研究では,LVLMが制御された合成および実世界のベンチマークを用いてカウントをどのように実装するかを,力学解析と組み合わせて検討する。
以上の結果から,LVLMは人間的なカウント動作を示し,小数量での精度の高い評価と,大量でのノイズ評価が可能であることがわかった。
本稿では、視覚的アクティベーション・パッチングとHeadLensという2つの新しい解釈可能性手法を導入し、様々な視覚的推論タスクで共有される構造化された「カウント回路」を明らかにする。
これらの知見に基づいて, 簡便かつ豊富に利用可能な合成画像を利用して, 任意の学習済みLVLMを微調整する, 軽量な介入戦略を提案する。
この微調整の範囲は狭いが、この介入は分配内合成データのカウント精度を高めるだけでなく、分配外カウントのベンチマークでは平均で+8.36%向上し、Qwen2.5-VLの複雑な視覚的推論タスクでは+1.54%向上した。
これらの知見は、視覚的推論におけるカウントの中枢的かつ影響力のある役割を浮き彫りにし、カウント機構の強化による全体的な視覚的推論能力向上のための潜在的経路を示唆している。
関連論文リスト
- Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - HERO: Rethinking Visual Token Early Dropping in High-Resolution Large Vision-Language Models [60.028070589466445]
本稿では,コンテンツ適応型トークン予算配分と関数対応トークン選択を統合したフレームワークHEROを提案する。
本研究は、HR-LVLMにおける効率的な推論に対する経験的洞察と実践的解決策の両方を提供する。
論文 参考訳(メタデータ) (2025-09-16T13:22:08Z) - LVLM-COUNT: Enhancing the Counting Ability of Large Vision-Language Models [5.892066196730199]
大規模視覚言語モデル(LVLM)は、タスクの数え上げに苦慮していることが知られている。
多数のオブジェクトに対するLVLMのカウント能力を向上する,シンプルで効果的なベースライン手法を提案する。
このアプローチの有効性を,さまざまなデータセットやベンチマークで実証する。
論文 参考訳(メタデータ) (2024-12-01T05:50:22Z) - LLaVA-CoT: Let Vision Language Models Reason Step-by-Step [34.32147663809707]
LLaVA-CoTは、自律的な多段階推論を行うために設計された大型ビジョンランゲージモデル(VLM)である。
チェーン・オブ・シークレットのプロンプトとは異なり、LLaVA-CoTは独立に要約、視覚的解釈、論理的推論、結論生成の逐次的な段階に関与する。
100kのトレーニングサンプルとテストタイムのスケーリングだけで、LLaVA-CoTは、幅広いマルチモーダル推論ベンチマークでベースモデルを9.4%上回っている。
論文 参考訳(メタデータ) (2024-11-15T18:58:31Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。