論文の概要: Dragonfly: Multi-Resolution Zoom-In Encoding Enhances Vision-Language Models
- arxiv url: http://arxiv.org/abs/2406.00977v2
- Date: Mon, 14 Oct 2024 23:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:25.042700
- Title: Dragonfly: Multi-Resolution Zoom-In Encoding Enhances Vision-Language Models
- Title(参考訳): Dragonfly:マルチリゾリューションのズームインエンコーディングでビジョンランゲージモデルが実現
- Authors: Rahul Thapa, Kezhen Chen, Ian Covert, Rahul Chalamala, Ben Athiwaratkun, Shuaiwen Leon Song, James Zou,
- Abstract要約: 視覚変換器(ViT)は、あまり目立たないオブジェクト、チャート、埋め込みテキストから細かな詳細を捉えるのに苦労する。
我々は、近年の高解像度・マルチクロップ技術を拡張し、ネイティブ解像度を保存するだけでなく、その先をズームインする。
この拡張により、現在のViTの限界を克服して、より詳細な詳細をより正確に把握することが可能になります。
- 参考スコア(独自算出の注目度): 26.322856874796702
- License:
- Abstract: Recent advances in vision-language models (VLMs) have demonstrated the advantages of processing images at higher resolutions and utilizing multi-crop features to preserve native resolution details. However, despite these improvements, existing vision transformers (ViTs) still struggle to capture fine-grained details from less prominent objects, charts, and embedded text, limiting their effectiveness in certain tasks. In this paper, we extend recent high-resolution and multi-crop techniques by not only preserving the native resolution, but zooming in beyond it and extracting features from a large number of image sub-crops. This enhancement allows our model to better capture fine-grained details, overcoming the limitations of current ViTs. To manage the increased token count and computational complexity, we demonstrate that a simple mean-pooling aggregation over tokens is effective. Our model, Dragonfly, achieves competitive performance on general-domain tasks such as ScienceQA and AI2D, and excels in tasks requiring fine-grained image understanding, including TextVQA and ChartQA. Among models in the 7-8B parameter range, Dragonfly consistently ranks at the top across ten general-domain benchmarks, achieving the highest or second-highest scores in most cases, outperforming models that are significantly larger or trained on larger datasets. Our biomedical model, Dragonfly-Med, sets new benchmarks on several medical tasks, achieving 91.6% accuracy on SLAKE (compared to 84.8% for Med-Gemini), a 67.1% token F1 score on Path-VQA (compared to 62.7% for Med-PaLM M), and state-of-the-art results across the majority of image captioning tasks. Overall, our work highlights the persistent challenge of engineering visual representations with fixed-resolution ViTs, and proposes a simple yet effective solution to address this issue and boost performance in both general and specialized domains.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、高解像度で画像を処理することの利点を実証し、ネイティブ解像度の詳細を保存するためのマルチクロップ機能を活用している。
しかし、これらの改善にもかかわらず、既存の視覚変換器(ViT)は、あまり目立たないオブジェクト、チャート、埋め込みテキストから細かな詳細を捉えるのに苦慮し、特定のタスクにおける有効性を制限している。
本稿では,近年の高解像度・マルチクロップ技術を拡張し,ネイティブ解像度を保存するだけでなく,その先をズームインし,多数の画像サブクロップから特徴を抽出する。
この拡張により、現在のViTの限界を克服して、より詳細な詳細をより正確に把握することが可能になります。
トークン数の増加と計算複雑性を管理するために,トークンに対する単純な平均プールアグリゲーションが有効であることを示す。
我々のモデルであるDragonflyは、ScienceQAやAI2Dといった一般的なドメインタスクの競合性能を達成し、TextVQAやChartQAといったきめ細かい画像理解を必要とするタスクに優れています。
7-8Bパラメータ範囲のモデルの中で、Dragonflyは10の一般ドメインベンチマークで一貫してトップにランクインし、ほとんどのケースで最高または2番目に高いスコアを獲得し、より大きなデータセットで大幅に大きく訓練されたモデルよりも優れています。
我々のバイオメディカルモデルであるDragonfly-Medは、SLAKE(Med-Geminiは84.8%)の91.6%の精度、Path-VQA(Med-PaLM Mは62.7%)の67.1%のトークンF1スコア、画像キャプションタスクの大部分が最先端の結果である。
全体として、我々は、固定解像度のViTを用いたエンジニアリング視覚表現の永続的な課題を強調し、この問題に対処し、一般的なドメインと専門ドメインの両方のパフォーマンスを向上させるための、シンプルで効果的なソリューションを提案する。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model [51.10876815815515]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Masked Image Modeling Advances 3D Medical Image Analysis [0.41674286453548476]
マスク付き画像モデリング(MIM)は、大量の未ラベルデータから学習する能力から注目されている。
本論文は,MIMが自然画像に加えて,3次元医用画像解析も進めることができることを示す。
論文 参考訳(メタデータ) (2022-04-25T15:16:08Z) - Multi-modal Understanding and Generation for Medical Images and Text via
Vision-Language Pre-Training [5.119201893752376]
本稿では,トランスフォーマーアーキテクチャと新しいマルチモーダルアテンションマスキング手法を組み合わせた医療ビジョン言語学習システム(MedViLL)を提案する。
我々は,タスク固有のアーキテクチャを含む様々なベースラインに対して,MedViLLのより優れたダウンストリームタスク性能を実証的に示す。
論文 参考訳(メタデータ) (2021-05-24T15:14:09Z) - Microscopic fine-grained instance classification through deep attention [7.50282814989294]
限られたサンプルを用いた微視的画像データのきめ細かい分類は、コンピュータビジョンとバイオメディカルイメージングにおいて未解決の問題である。
本稿では,エンドツーエンドで2つのタスクを同時に実行する,シンプルで効果的なディープネットワークを提案する。
その結果、堅牢だが軽量なエンドツーエンドのトレーニング可能なディープネットワークが実現し、最先端の結果が得られます。
論文 参考訳(メタデータ) (2020-10-06T15:29:58Z) - Unified Representation Learning for Efficient Medical Image Analysis [0.623075162128532]
統一モダリティ特化特徴表現(UMS-Rep)を用いた医用画像解析のためのマルチタスクトレーニング手法を提案する。
提案手法は,計算資源の全体的な需要を減らし,タスクの一般化と性能の向上を図っている。
論文 参考訳(メタデータ) (2020-06-19T16:52:16Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。