論文の概要: LLMs Can Compensate for Deficiencies in Visual Representations
- arxiv url: http://arxiv.org/abs/2506.05439v1
- Date: Thu, 05 Jun 2025 12:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 21:34:56.74088
- Title: LLMs Can Compensate for Deficiencies in Visual Representations
- Title(参考訳): LLMは視覚表現の欠陥を補うことができる
- Authors: Sho Takishita, Jay Gala, Abdelrahman Mohamed, Kentaro Inui, Yova Kementchedjhieva,
- Abstract要約: 私たちはCLIPベースの視覚エンコーダを構築しており、様々な制限があることが知られている。
我々は、慎重に設計された探索作業において、制御された自己注意の保証を行う。
既知の制限にもかかわらず、CLIP視覚表現は言語デコーダに読みやすいセマンティック情報を提供する。
- 参考スコア(独自算出の注目度): 34.01176691790258
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many vision-language models (VLMs) that prove very effective at a range of multimodal task, build on CLIP-based vision encoders, which are known to have various limitations. We investigate the hypothesis that the strong language backbone in VLMs compensates for possibly weak visual features by contextualizing or enriching them. Using three CLIP-based VLMs, we perform controlled self-attention ablations on a carefully designed probing task. Our findings show that despite known limitations, CLIP visual representations offer ready-to-read semantic information to the language decoder. However, in scenarios of reduced contextualization in the visual representations, the language decoder can largely compensate for the deficiency and recover performance. This suggests a dynamic division of labor in VLMs and motivates future architectures that offload more visual processing to the language decoder.
- Abstract(参考訳): 多くの視覚言語モデル(VLM)は、様々な制限があるCLIPベースの視覚エンコーダ上に構築され、様々なマルチモーダルタスクにおいて非常に効果的である。
本稿では,VLMの強い言語バックボーンが,視覚的特徴の弱さを補うために,文脈化や豊か化によって補うという仮説を考察する。
3つのCLIPベースのVLMを用いて、慎重に設計された探索タスクにおいて、制御された自己アテンションアブリゲーションを実行する。
既知の制限にもかかわらず、CLIP視覚表現は言語デコーダに読みやすいセマンティック情報を提供する。
しかし、視覚表現における文脈化を減らすシナリオでは、言語デコーダは不足を補うことができ、性能を回復することができる。
これは、VLMの動的分割を示唆し、言語デコーダにより多くのビジュアル処理をオフロードする将来のアーキテクチャを動機付けている。
関連論文リスト
- LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - BRAVE: Broadening the visual encoding of vision-language models [48.41146184575914]
視覚言語モデル(VLM)は、例えばCLIPのような視覚エンコーダと、下流タスクを解決するために符号化された特徴を解釈する言語モデル(LM)で構成されている。
目覚しい進歩にもかかわらず、VLMは視覚エンコーダの限られた能力のためにいくつかの欠点に直面している。
BRAVEは,複数の凍結エンコーダの特徴をより汎用的な表現に集約し,凍結したLMへの入力として直接供給することができる。
論文 参考訳(メタデータ) (2024-04-10T17:59:45Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。