論文の概要: Beyond Static Visual Tokens: Structured Sequential Visual Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2603.26737v1
- Date: Sat, 21 Mar 2026 20:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.553585
- Title: Beyond Static Visual Tokens: Structured Sequential Visual Chain-of-Thought Reasoning
- Title(参考訳): 静的な視覚トークンを超えて:構造化された逐次的視覚チェーン
- Authors: Guangfu Guo, Xiaoqian Lu, Yue Feng, Mingming Sun,
- Abstract要約: 構造系列型ビジュアルCoT SSV-CoTを提案する。
まず,重要な視覚領域を特定し整理し,視覚的重要性の空間分布を明示的にモデル化する。
第二に、この識別順序に従って推論が行われ、一次から二次へとカリキュラムのようなセマンティックな進行を誘導する。
- 参考スコア(独自算出の注目度): 8.10005273393957
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current multimodal LLMs encode images as static visual prefixes and rely on text-based reasoning, lacking goal-driven and adaptive visual access. Inspired by human visual perception-where attention is selectively and sequentially shifted from the most informative regions to secondary cues-we propose Structural Sequential Visual CoT SSV-CoT. First, a question-relevant saliency map identifies and organizes key visual regions, explicitly modeling the spatial distribution of visual importance. Second, reasoning is performed following this discriminative order, inducing a curriculum-like semantic progression from primary to secondary cues. This method is trained end-to-end, using text cot and answer supervision, without relying on region-level annotations or specialized external tools. Experiments on diverse visual reasoning benchmarks show gains, validating structured and sequential visual cognition.
- Abstract(参考訳): 現在のマルチモーダルLLMは、イメージを静的な視覚接頭辞としてエンコードし、テキストベースの推論に依存し、目標駆動と適応的な視覚アクセスを欠いている。
人間の視覚的知覚にインスパイアされた注意は、最も情報性の高い領域から二次的なキューへと選択的かつ順次シフトする。
まず,重要な視覚領域を特定し整理し,視覚的重要性の空間分布を明示的にモデル化する。
第二に、この識別順序に従って推論が行われ、一次から二次へとカリキュラムのようなセマンティックな進行を誘導する。
この方法は、地域レベルのアノテーションや特殊な外部ツールに頼ることなく、テキストコットと応答監視を用いてエンドツーエンドで訓練される。
多様な視覚的推論ベンチマークの実験は、構造的およびシーケンシャルな視覚認知の妥当性を示す。
関連論文リスト
- Focus, Don't Prune: Identifying Instruction-Relevant Regions for Information-Rich Image Understanding [15.310650411597727]
PinPointは、まず命令関連の画像領域を特定し、それを洗練して、きめ細かい視覚的特徴を抽出するフレームワークである。
新しいアノテーションは、挑戦的なVQAベンチマークにまたがる命令関連領域に対して、よりリッチな地味な監視を提供する。
論文 参考訳(メタデータ) (2026-03-24T05:37:01Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。