論文の概要: Understanding Counting Mechanisms in Large Language and Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.17699v1
- Date: Fri, 21 Nov 2025 18:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.374169
- Title: Understanding Counting Mechanisms in Large Language and Vision-Language Models
- Title(参考訳): 大規模言語と視覚言語モデルにおけるカウントメカニズムの理解
- Authors: Hosein Hasani, Amirmohammad Izadi, Fatemeh Askari, Mobin Bagherian, Sadegh Mohammadian, Mohammad Izadi, Mahdieh Soleymani Baghshah,
- Abstract要約: 本研究では,大規模言語モデル (LLM) と大規模視覚言語モデル (LVLM) が,タスク数における数値情報をどのように表現し,計算するかを検討する。
その結果、個々のトークンや視覚的特徴が、コンテキスト間で抽出および転送可能な潜在位置カウント情報を符号化していることがわかった。
LVLMでは、空間組成に応じて背景領域と前景領域を移動する視覚埋め込みにも数値情報が現れる。
- 参考スコア(独自算出の注目度): 8.918147502104603
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper examines how large language models (LLMs) and large vision-language models (LVLMs) represent and compute numerical information in counting tasks. We use controlled experiments with repeated textual and visual items and analyze model behavior through causal mediation and activation patching. To this end, we design a specialized tool, CountScope, for mechanistic interpretability of numerical content. Results show that individual tokens or visual features encode latent positional count information that can be extracted and transferred across contexts. Layerwise analyses reveal a progressive emergence of numerical representations, with lower layers encoding small counts and higher layers representing larger ones. We identify an internal counter mechanism that updates with each item, stored mainly in the final token or region and transferable between contexts. In LVLMs, numerical information also appears in visual embeddings, shifting between background and foreground regions depending on spatial composition. Models rely on structural cues such as separators in text, which act as shortcuts for tracking item counts and influence the accuracy of numerical predictions. Overall, counting emerges as a structured, layerwise process in LLMs and follows the same general pattern in LVLMs, shaped by the properties of the vision encoder.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLMs) と大規模視覚言語モデル (LVLMs) について検討する。
テキストと視覚の繰り返しによる制御実験を用いて,因果調停とアクティベーションパッチによるモデル行動の解析を行った。
この目的のために,数値コンテンツの機械的解釈性を考慮した特殊ツールであるCountScopeを設計する。
その結果、個々のトークンや視覚的特徴が、コンテキスト間で抽出および転送可能な潜在位置カウント情報を符号化していることがわかった。
レイヤーワイズ解析は数値表現の進歩的な出現を示し、下位層は小さなカウントを符号化し、上位層はより大きな表現を表現している。
各項目を更新し、主に最終トークンや領域に格納し、コンテキスト間で転送可能な内部カウンタメカニズムを特定します。
LVLMでは、空間組成に応じて背景領域と前景領域を移動する視覚埋め込みにも数値情報が現れる。
モデルはテキスト中のセパレータのような構造的手がかりに依存しており、項目数を追跡するショートカットとして機能し、数値予測の精度に影響を与える。
全体として、カウントはLLMにおいて構造化された階層的なプロセスとして現れ、視覚エンコーダの特性によって形成されるLVLMにおいて同じ一般的なパターンに従う。
関連論文リスト
- AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Document Understanding [79.43306110124875]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - Seeing Syntax: Uncovering Syntactic Learning Limitations in Vision-Language Models [18.87130615326443]
視覚言語モデル(VLM)は、画像キャプションとテキスト・ツー・イメージ生成の基礎モデルとして機能する。
近年の研究では、VLMテキストエンコーダ(特に構成性や意味理解など)の制限が強調されている。
論文 参考訳(メタデータ) (2024-12-11T05:37:04Z) - Cross-modal Information Flow in Multimodal Large Language Models [14.853197288189579]
大規模言語モデル(MLLM)における言語と視覚の異なるモーダル間の情報フローについて検討する。
2つのモダリティを統合する過程には2つの異なる段階があることが分かる。
本研究は,MLLMにおける画像および言語処理の空間的・機能的側面について,より包括的かつ包括的視点を提供する。
論文 参考訳(メタデータ) (2024-11-27T18:59:26Z) - Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。
著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文 参考訳(メタデータ) (2024-10-09T17:55:02Z) - Vector-ICL: In-context Learning with Continuous Vector Representations [75.96920867382859]
大規模言語モデル (LLM) はテキストデータに顕著なコンテキスト内学習能力を示す。
ブラックボックス事前学習エンコーダから得られる様々な領域から連続ベクトルに拡張できるかどうかを検討する。
特に,汎用言語モデリング目的のプロジェクタを事前学習することで,Vector-ICLの実現が期待できる。
論文 参考訳(メタデータ) (2024-10-08T02:25:38Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。