論文の概要: Reading Images Like Texts: Sequential Image Understanding in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.19191v1
- Date: Tue, 23 Sep 2025 16:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.941144
- Title: Reading Images Like Texts: Sequential Image Understanding in Vision-Language Models
- Title(参考訳): テキストのような画像を読む:視覚言語モデルにおける逐次的画像理解
- Authors: Yueyan Li, Chenggong Zhao, Zeyuan Zang, Caixia Yuan, Xiaojie Wang,
- Abstract要約: VLM(Vision-Language Models)は、様々な現実世界のタスクにおいて顕著なパフォーマンスを示す。
これらのモデルは通常、画像のシリアライズによって視覚情報を処理する。
本稿では,デコード効率を向上させるために,プラグアンドプレイ型ビジュアルデコーダに基づく命令非依存のトークン圧縮アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.24989979549793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated remarkable performance across a variety of real-world tasks. However, existing VLMs typically process visual information by serializing images, a method that diverges significantly from the parallel nature of human vision. Moreover, their opaque internal mechanisms hinder both deeper understanding and architectural innovation. Inspired by the dual-stream hypothesis of human vision, which distinguishes the "what" and "where" pathways, we deconstruct the visual processing in VLMs into object recognition and spatial perception for separate study. For object recognition, we convert images into text token maps and find that the model's perception of image content unfolds as a two-stage process from shallow to deep layers, beginning with attribute recognition and culminating in semantic disambiguation. For spatial perception, we theoretically derive and empirically verify the geometric structure underlying the positional representation in VLMs. Based on these findings, we introduce an instruction-agnostic token compression algorithm based on a plug-and-play visual decoder to improve decoding efficiency, and a RoPE scaling technique to enhance spatial reasoning. Through rigorous experiments, our work validates these analyses, offering a deeper understanding of VLM internals and providing clear principles for designing more capable future architectures.
- Abstract(参考訳): VLM(Vision-Language Models)は、様々な現実世界のタスクにおいて顕著なパフォーマンスを示す。
しかしながら、既存のVLMは画像のシリアライズによって視覚情報を処理するのが一般的である。
さらに、それらの不透明な内部メカニズムは、より深い理解とアーキテクチャの革新の両方を妨げる。
視覚の「何」と「どこで」の経路を区別する二重ストリーム仮説にインスパイアされた我々は、VLMの視覚処理を物体認識と空間知覚に分解し、別々に研究する。
物体認識において,画像はテキストトークンマップに変換され,画像内容の認識は,まず属性認識から始まり,意味的曖昧さの達成に至るまで,浅層から深層までの2段階のプロセスとして展開される。
空間知覚においては,VLMにおける位置表現の基盤となる幾何学的構造を理論的に導出し,実証的に検証する。
これらの結果に基づいて,デコード効率を向上させるためのプラグアンドプレイ視覚デコーダに基づく命令非依存のトークン圧縮アルゴリズムと,空間推論を強化するためのRoPEスケーリング手法を導入する。
厳密な実験を通じて、我々はこれらの分析を検証し、VLMの内部をより深く理解し、より有能な将来のアーキテクチャを設計するための明確な原則を提供します。
関連論文リスト
- Image Reconstruction as a Tool for Feature Analysis [2.0249250133493195]
本稿では,画像再構成による視覚特徴の解釈のための新しい手法を提案する。
画像ベースタスクで事前訓練されたエンコーダは、非画像タスクで訓練されたものよりも、はるかに多くの画像情報を保持することを示す。
我々のアプローチはどんな視覚エンコーダにも適用でき、特徴空間の内部構造に光を遮ることができる。
論文 参考訳(メタデータ) (2025-06-09T14:32:18Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Thinking with Generated Images [30.28526622443551]
我々は,大規模マルチモーダルモデル(LMM)が視覚的推論にどのように関与するかを変換する,新しいパラダイムであるThinking with Generated Imagesを紹介する。
我々のアプローチは、AIモデルが人間の創造的、分析的、戦略的思考を特徴づける視覚的想像力や反復的な洗練に関わり得ることを可能にする。
論文 参考訳(メタデータ) (2025-05-28T16:12:45Z) - Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。
MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。
階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文 参考訳(メタデータ) (2025-03-17T12:31:23Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - What's in the Image? A Deep-Dive into the Vision of Vision Language Models [20.669971132114195]
VLM(Vision-Language Models)は、最近、複雑な視覚コンテンツを解釈する際、顕著な能力を示した。
本稿では,各層にまたがるアテンションモジュールに着目し,徹底的な経験分析を行う。
これらのモデルが視覚データをどのように処理するかについて、いくつかの重要な洞察を明らかにします。
論文 参考訳(メタデータ) (2024-11-26T14:59:06Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - ViCE: Self-Supervised Visual Concept Embeddings as Contextual and Pixel
Appearance Invariant Semantic Representations [77.3590853897664]
本研究は,NLPにおける単語埋め込みの学習方法に着想を得た画像に対して,意味論的にリッチな視覚埋め込みを学習するための自己指導的手法を提案する。
論文 参考訳(メタデータ) (2021-11-24T12:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。