論文の概要: Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2505.15510v1
- Date: Wed, 21 May 2025 13:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.666222
- Title: Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought
- Title(参考訳): 視覚的思考:マルチモーダル・チェーン・オブ・サートを理解するための統一的な視点
- Authors: Zihui Cheng, Qiguang Chen, Xiao Xu, Jiaqi Wang, Weiyun Wang, Hao Fei, Yidong Wang, Alex Jinpeng Wang, Zhi Chen, Wanxiang Che, Libo Qin,
- Abstract要約: 大規模視覚言語モデル(LVLM)の性能と解釈性を改善するマルチモーダル・チェーン・オブ・シント(MCoT)
我々は,MCoTフォーマットによらず,画像情報を推論プロセスに伝達する視覚的思考を取り入れることで,MCoTがLVLMを促進することを示す。
また、視覚的思考の内部的な性質を探求し、視覚的思考が入力画像と深いトランスフォーマー層への推論の間の仲介として機能することを発見した。
- 参考スコア(独自算出の注目度): 72.93910800095757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved significant success in multimodal tasks, with multimodal chain-of-thought (MCoT) further enhancing performance and interpretability. Recent MCoT methods fall into two categories: (i) Textual-MCoT (T-MCoT), which takes multimodal input and produces textual output; and (ii) Interleaved-MCoT (I-MCoT), which generates interleaved image-text outputs. Despite advances in both approaches, the mechanisms driving these improvements are not fully understood. To fill this gap, we first reveal that MCoT boosts LVLMs by incorporating visual thoughts, which convey image information to the reasoning process regardless of the MCoT format, depending only on clarity and conciseness of expression. Furthermore, to explore visual thoughts systematically, we define four distinct forms of visual thought expressions and analyze them comprehensively. Our findings demonstrate that these forms differ in clarity and conciseness, yielding varying levels of MCoT improvement. Additionally, we explore the internal nature of visual thoughts, finding that visual thoughts serve as intermediaries between the input image and reasoning to deeper transformer layers, enabling more advanced visual information transmission. We hope that the visual thoughts can inspire further breakthroughs for future MCoT research.
- Abstract(参考訳): LVLM(Large Vision-Language Models)はマルチモーダルタスクにおいて大きな成功を収め、MCoT(Multimodal chain-of- Thought)はパフォーマンスと解釈性をさらに向上させた。
最近のMCoT法は2つのカテゴリに分類される。
(i)マルチモーダル入力を受け、テキスト出力を生成するTextual-MCoT(T-MCoT)
(ii)Interleaved-MCoT(I-MCoT)は、インターリーブ画像テキスト出力を生成する。
両方のアプローチの進歩にもかかわらず、これらの改善を駆動するメカニズムは完全には理解されていない。
このギャップを埋めるために、まず、MCoTは、表現の明快さと簡潔さにのみ依存して、画像情報をMCoTフォーマットによらず推論プロセスに伝達する視覚的思考を取り入れることで、LVLMを増強する。
さらに、視覚的思考を体系的に探索するために、4つの異なる視覚的思考表現を定義し、それらを包括的に分析する。
以上の結果から,これらの形態は明瞭度と簡潔度に異なっており,MCoT改善のレベルが異なることが示唆された。
さらに、視覚的思考の内部的な性質を探求し、視覚的思考が入力画像と深いトランスフォーマー層への推論の仲介として機能し、より高度な視覚情報伝達を可能にすることを明らかにする。
視覚的な思考が将来のMCoT研究にさらなるブレークスルーをもたらすことを期待している。
関連論文リスト
- Looking Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models [3.624741029063979]
MLLM(Multimodal Large Language Models)は、視覚的な入力を完全に活用できないことが多い。
われわれのアプローチはまず、MLLMが画像領域の視覚的理解をどのように構築するかについての洞察を与え、その能力を増幅する技術を導入する。
本稿では,視覚的に依存するトークンの予測能力の定量化と,視覚的に困難なタスクの10 pt の高速化により,結果モデルのより優れたマルチモーダル理解を実証する。
論文 参考訳(メタデータ) (2025-05-08T20:04:27Z) - Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models [60.08485416687596]
Chain of Multi-modal Thought (CoMT)ベンチマークは、視覚操作を本質的に統合する人間のような推論を模倣することを目的としている。
我々は様々なLVLMと戦略をCoMT上で評価し、現在のアプローチの能力と限界に関する重要な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-12-17T14:10:16Z) - MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception [24.406224705072763]
Mutually Reinforced Multimodal Large Language Model (MR-MLLM) は視覚知覚とマルチモーダル理解を高める新しいフレームワークである。
まず、視覚モデルからの詳細な視覚入力と言語モデルの言語深度を調和させるために、共有クエリ融合機構を提案する。
第2に、視覚知覚出力から新たなモダリティを取り入れた、知覚強化型クロスモーダル積分法を提案する。
論文 参考訳(メタデータ) (2024-06-22T07:10:36Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。