論文の概要: Large Language Models Facilitate Vision Reflection in Image Classification
- arxiv url: http://arxiv.org/abs/2508.06525v1
- Date: Sat, 02 Aug 2025 03:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.406962
- Title: Large Language Models Facilitate Vision Reflection in Image Classification
- Title(参考訳): 画像分類における視覚反射を考慮した大規模言語モデル
- Authors: Guoyuan An, JaeYoon Kim, SungEui Yoon,
- Abstract要約: 本稿では,大規模マルチモーダルモデル(LMM)における視覚反射の新たな説明可能性について述べる。
我々は,画像ネットなどのベンチマーク上でも,LMMが特別な視覚モデルの予測を検証できるように促すことで,認識精度が向上することを示した。
第3に、訓練不要コネクタは、広範囲な特徴調整訓練を伴わずに、微粒化認識タスクにおけるLMM性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 17.41675650968567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents several novel findings on the explainability of vision reflection in large multimodal models (LMMs). First, we show that prompting an LMM to verify the prediction of a specialized vision model can improve recognition accuracy, even on benchmarks like ImageNet, despite prior evidence that LMMs typically underperform dedicated vision encoders. Second, we analyze the internal behavior of vision reflection and find that the vision-language connector maps visual features into explicit textual concepts, allowing the language model to reason about prediction plausibility using commonsense knowledge. We further observe that replacing a large number of vision tokens with only a few text tokens still enables LLaVA to generate similar answers, suggesting that LMMs may rely primarily on a compact set of distilled textual representations rather than raw vision features. Third, we show that a training-free connector can enhance LMM performance in fine-grained recognition tasks, without extensive feature-alignment training. Together, these findings offer new insights into the explainability of vision-language models and suggest that vision reflection is a promising strategy for achieving robust and interpretable visual recognition.
- Abstract(参考訳): 本稿では,大規模マルチモーダルモデル(LMM)における視覚反射の可視性に関する新しい知見について述べる。
まず,画像ネットなどのベンチマークでも,LMMが専用視覚エンコーダよりも性能が低いという証拠があるにもかかわらず,特殊な視覚モデルの予測をLMMに促すことで認識精度が向上することを示す。
第2に、視覚反射の内的挙動を分析し、視覚言語コネクターが視覚特徴を明示的なテキスト概念にマッピングし、コモンセンス知識を用いて言語モデルが予測可能性について推論できるようにする。
さらに、多数の視覚トークンを少数のテキストトークンに置き換えることで、LLaVAは依然として類似の回答を生成することが可能であり、LMMは生の視覚特徴ではなく、蒸留されたテキスト表現のコンパクトなセットに依存する可能性があることを示唆している。
第3に、訓練不要コネクタは、広範囲な特徴調整訓練を伴わずに、微粒化認識タスクにおけるLMM性能を向上させることができることを示す。
これらの知見は、視覚言語モデルの説明可能性に関する新たな洞察を与え、視覚反射が堅牢で解釈可能な視覚認識を実現するための有望な戦略であることを示唆している。
関連論文リスト
- Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。
我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。
提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。
また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文 参考訳(メタデータ) (2024-09-21T02:10:19Z) - MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception [24.406224705072763]
Mutually Reinforced Multimodal Large Language Model (MR-MLLM) は視覚知覚とマルチモーダル理解を高める新しいフレームワークである。
まず、視覚モデルからの詳細な視覚入力と言語モデルの言語深度を調和させるために、共有クエリ融合機構を提案する。
第2に、視覚知覚出力から新たなモダリティを取り入れた、知覚強化型クロスモーダル積分法を提案する。
論文 参考訳(メタデータ) (2024-06-22T07:10:36Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Unveiling Typographic Deceptions: Insights of the Typographic Vulnerability in Large Vision-Language Model [23.764618459753326]
タイポグラフィー攻撃はLVLMのセキュリティ上の脅威になると予想されている。
現在よく知られた商用およびオープンソースのLVLMに対するタイポグラフィー攻撃を検証する。
この脆弱性をよりよく評価するために,これまでで最も包括的で大規模なTypographicデータセットを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。