論文の概要: HyViLM: Enhancing Fine-Grained Recognition with a Hybrid Encoder for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.08378v2
- Date: Fri, 13 Dec 2024 09:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 11:43:09.861279
- Title: HyViLM: Enhancing Fine-Grained Recognition with a Hybrid Encoder for Vision-Language Models
- Title(参考訳): HyViLM:視覚言語モデルのためのハイブリッドエンコーダによる微粒化認識の実現
- Authors: Shiding Zhu, Wenhui Dong, Jun Song, Yingbo Wang, Yanan Guo, Bo Zheng,
- Abstract要約: HyViLMは、エンコーディング中に全体のコンテキストを保持しながら、任意の解像度の画像を処理するように設計されている。
同じ条件下での最先端のMLLMと比較して、HyViLMは既存のMLLMを10タスク中9タスクで上回ります。
- 参考スコア(独自算出の注目度): 15.128058747088222
- License:
- Abstract: Recently, there has been growing interest in the capability of multimodal large language models (MLLMs) to process high-resolution images. A common approach currently involves dynamically cropping the original high-resolution image into smaller sub-images, which are then fed into a vision encoder that was pre-trained on lower-resolution images. However, this cropping approach often truncates objects and connected areas in the original image, causing semantic breaks. To address this limitation, we introduce HyViLM, designed to process images of any resolution while retaining the overall context during encoding. Specifically, we: (i) Design a new visual encoder called Hybrid Encoder that not only encodes individual sub-images but also interacts with detailed global visual features, significantly improving the model's ability to encode high-resolution images. (ii) Propose an optimal feature fusion strategy for the dynamic cropping approach, effectively leveraging information from different layers of the vision encoder. Compared with the state-of-the-art MLLMs under the same setting, our HyViLM outperforms existing MLLMs in nine out of ten tasks. Specifically, HyViLM achieves a 9.6% improvement in performance on the TextVQA task and a 6.9% enhancement on the DocVQA task.
- Abstract(参考訳): 近年,マルチモーダル大規模言語モデル(MLLM)の高解像度画像処理能力への関心が高まっている。
現在一般的なアプローチでは、元の高解像度画像をより小さなサブイメージに動的にトリミングし、低解像度の画像で事前訓練された視覚エンコーダに供給する。
しかし、この収穫アプローチは、しばしば元の画像のオブジェクトと接続された領域を切断し、意味を損なう。
この制限に対処するために、エンコーディング中に全体のコンテキストを保持しながら、任意の解像度の画像を処理するように設計されたHyViLMを導入する。
具体的には
(i)Hybrid Encoderと呼ばれる新しいビジュアルエンコーダを設計し、個々のサブイメージをエンコードするだけでなく、詳細なグローバルなビジュアル特徴と相互作用し、高解像度画像をエンコードするモデルの能力を大幅に向上させる。
2)視覚エンコーダの異なる層からの情報を効果的に活用し,動的収穫手法のための最適特徴融合戦略を提案する。
同じ条件下での最先端のMLLMと比較して、HyViLMは既存のMLLMを10タスク中9タスクで上回ります。
具体的には、HyViLMはTextVQAタスクのパフォーマンスが9.6%向上し、DocVQAタスクは6.9%向上した。
関連論文リスト
- Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - Multimodal Instruction Tuning with Hybrid State Space Models [25.921044010033267]
長いコンテキストは、多モーダルな大言語モデルの認識と理解能力を高めるために不可欠である。
本稿では,マルチモーダルアプリケーションにおける長時間のコンテキストを効率的に扱うために,ハイブリッドトランスフォーマー-MAMBAモデルを用いた新しい手法を提案する。
本モデルでは,高解像度画像と高フレーム映像の推論効率を現行モデルに比べて約4倍向上させる。
論文 参考訳(メタデータ) (2024-11-13T18:19:51Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - MixNet: Efficient Global Modeling for Ultra-High-Definition Image Restoration [36.15948393000783]
そこで我々は,MixNetという新たな画像復元手法を提案する。
過剰な計算複雑性を伴わずに、機能の長距離依存性を捉えるために、Global Feature Modulation Layer (GFML)を提示する。
低照度画像強調,水中画像強調,画像劣化,画像復調を含む4つのUHD画像復元タスクについて広範な実験を行い,提案手法が現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-19T12:40:54Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。