Fugu-MT 論文翻訳(概要): Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models

論文の概要: Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models

arxiv url: http://arxiv.org/abs/2407.16526v1
Date: Tue, 23 Jul 2024 14:39:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 16:55:42.961148
Title: Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models
Title（参考訳）: 不完全なビジョンエンコーダ:視覚言語モデルのための効率的かつロバストなチューニング
Authors: Aristeidis Panos, Rahaf Aljundi, Daniel Olmeda Reino, Richard E Turner,
Abstract要約: 視覚言語モデル内の視覚エンコーダを更新するための効率的で堅牢な手法を提案する。提案手法では,エンコーダを選択的かつ局所的に更新することにより,前回のミスが発生したデータに対する大幅な性能向上を実現した。
参考スコア（独自算出の注目度）: 26.88977803220915
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Vision language models (VLMs) demonstrate impressive capabilities in visual question answering and image captioning, acting as a crucial link between visual and language models. However, existing open-source VLMs heavily rely on pretrained and frozen vision encoders (such as CLIP). Despite CLIP's robustness across diverse domains, it still exhibits non-negligible image understanding errors. These errors propagate to the VLM responses, resulting in sub-optimal performance. In our work, we propose an efficient and robust method for updating vision encoders within VLMs. Our approach selectively and locally updates encoders, leading to substantial performance improvements on data where previous mistakes occurred, while maintaining overall robustness. Furthermore, we demonstrate the effectiveness of our method during continual few-shot updates. Theoretical grounding, generality, and computational efficiency characterize our approach.
Abstract（参考訳）: 視覚言語モデル(VLM)は視覚的質問応答と画像キャプションの優れた機能を示し、視覚モデルと言語モデルの間に重要なリンクとして機能する。しかし、既存のオープンソースのVLMは、事前訓練された凍結されたビジョンエンコーダ(CLIPなど)に大きく依存している。 CLIPはさまざまなドメインにまたがる堅牢性にもかかわらず、画像理解エラーは無視できない。これらのエラーはVLM応答に伝播し、結果として準最適性能をもたらす。本稿では,VLM内の視覚エンコーダを更新するための効率的で堅牢な手法を提案する。提案手法は,エンコーダを選択的かつ局所的に更新することにより,前回のミスが発生したデータに対する大幅なパフォーマンス向上を実現し,全体的な堅牢性を維持した。さらに,連続的な数ショット更新において,本手法の有効性を示す。理論的基礎、一般化、計算効率は我々のアプローチを特徴づける。

関連論文リスト

Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文参考訳（メタデータ） (2025-07-10T15:26:41Z)
LLMs Can Compensate for Deficiencies in Visual Representations [34.01176691790258]
私たちはCLIPベースの視覚エンコーダを構築しており、様々な制限があることが知られている。我々は、慎重に設計された探索作業において、制御された自己注意の保証を行う。既知の制限にもかかわらず、CLIP視覚表現は言語デコーダに読みやすいセマンティック情報を提供する。
論文参考訳（メタデータ） (2025-06-05T12:04:59Z)
Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-14T18:33:31Z)
Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文参考訳（メタデータ） (2025-02-19T18:05:42Z)
EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文参考訳（メタデータ） (2025-02-10T18:59:58Z)
Efficient Few-Shot Continual Learning in Vision-Language Models [26.88977803220915]
視覚言語モデル(VLM)は、視覚的質問応答や画像キャプションといったタスクに優れる。 VLMは、CLIPのような事前訓練されたイメージエンコーダの使用によって制限されることが多く、全体的なパフォーマンスを阻害する画像理解エラーを引き起こす。本稿では,VLM内の画像エンコーダを選択的に更新する,堅牢で効率的なアルゴリズムであるLoRSUを提案する。
論文参考訳（メタデータ） (2025-02-06T14:20:55Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
A-VL: Adaptive Attention for Large Vision-Language Models [10.027871150748956]
LVLM(Large Vision-Language Model)は、コンピュータビジョンと自然言語処理技術を統合し、アプリケーションの可能性を高める。現在の適応アダプティブアテンション手法はトランスフォーマーベースの言語モデルのメモリ要求を大幅に削減する。我々は、LVLMがリモート画像トークンとローカルテキストトークンの両方から応答を生成し、異なるモダリティが異なる注意パターンを持つのを観察した。 LVLM推論に適したプラグアンドプレイ適応型アダプティブアテンションであるA-VLを開発した。
論文参考訳（メタデータ） (2024-09-23T09:22:59Z)
How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文参考訳（メタデータ） (2024-08-07T17:59:40Z)
Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。 EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文参考訳（メタデータ） (2024-06-17T17:59:44Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-09T08:23:20Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)
Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。 SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文参考訳（メタデータ） (2022-11-21T18:54:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。