論文の概要: Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2407.16526v1
- Date: Tue, 23 Jul 2024 14:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:55:42.961148
- Title: Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models
- Title(参考訳): 不完全なビジョンエンコーダ:視覚言語モデルのための効率的かつロバストなチューニング
- Authors: Aristeidis Panos, Rahaf Aljundi, Daniel Olmeda Reino, Richard E Turner,
- Abstract要約: 視覚言語モデル内の視覚エンコーダを更新するための効率的で堅牢な手法を提案する。
提案手法では,エンコーダを選択的かつ局所的に更新することにより,前回のミスが発生したデータに対する大幅な性能向上を実現した。
- 参考スコア(独自算出の注目度): 26.88977803220915
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision language models (VLMs) demonstrate impressive capabilities in visual question answering and image captioning, acting as a crucial link between visual and language models. However, existing open-source VLMs heavily rely on pretrained and frozen vision encoders (such as CLIP). Despite CLIP's robustness across diverse domains, it still exhibits non-negligible image understanding errors. These errors propagate to the VLM responses, resulting in sub-optimal performance. In our work, we propose an efficient and robust method for updating vision encoders within VLMs. Our approach selectively and locally updates encoders, leading to substantial performance improvements on data where previous mistakes occurred, while maintaining overall robustness. Furthermore, we demonstrate the effectiveness of our method during continual few-shot updates. Theoretical grounding, generality, and computational efficiency characterize our approach.
- Abstract(参考訳): 視覚言語モデル(VLM)は視覚的質問応答と画像キャプションの優れた機能を示し、視覚モデルと言語モデルの間に重要なリンクとして機能する。
しかし、既存のオープンソースのVLMは、事前訓練された凍結されたビジョンエンコーダ(CLIPなど)に大きく依存している。
CLIPはさまざまなドメインにまたがる堅牢性にもかかわらず、画像理解エラーは無視できない。
これらのエラーはVLM応答に伝播し、結果として準最適性能をもたらす。
本稿では,VLM内の視覚エンコーダを更新するための効率的で堅牢な手法を提案する。
提案手法は,エンコーダを選択的かつ局所的に更新することにより,前回のミスが発生したデータに対する大幅なパフォーマンス向上を実現し,全体的な堅牢性を維持した。
さらに,連続的な数ショット更新において,本手法の有効性を示す。
理論的基礎、一般化、計算効率は我々のアプローチを特徴づける。
関連論文リスト
- Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - A-VL: Adaptive Attention for Large Vision-Language Models [10.027871150748956]
LVLM(Large Vision-Language Model)は、コンピュータビジョンと自然言語処理技術を統合し、アプリケーションの可能性を高める。
現在の適応アダプティブアテンション手法はトランスフォーマーベースの言語モデルのメモリ要求を大幅に削減する。
我々は、LVLMがリモート画像トークンとローカルテキストトークンの両方から応答を生成し、異なるモダリティが異なる注意パターンを持つのを観察した。
LVLM推論に適したプラグアンドプレイ適応型アダプティブアテンションであるA-VLを開発した。
論文 参考訳(メタデータ) (2024-09-23T09:22:59Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。
SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。
本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。