論文の概要: Dragonfly: Multi-Resolution Zoom-In Encoding Enhances Vision-Language Models
- arxiv url: http://arxiv.org/abs/2406.00977v2
- Date: Mon, 14 Oct 2024 23:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:25.042700
- Title: Dragonfly: Multi-Resolution Zoom-In Encoding Enhances Vision-Language Models
- Title(参考訳): Dragonfly:マルチリゾリューションのズームインエンコーディングでビジョンランゲージモデルが実現
- Authors: Rahul Thapa, Kezhen Chen, Ian Covert, Rahul Chalamala, Ben Athiwaratkun, Shuaiwen Leon Song, James Zou,
- Abstract要約: 視覚変換器(ViT)は、あまり目立たないオブジェクト、チャート、埋め込みテキストから細かな詳細を捉えるのに苦労する。
我々は、近年の高解像度・マルチクロップ技術を拡張し、ネイティブ解像度を保存するだけでなく、その先をズームインする。
この拡張により、現在のViTの限界を克服して、より詳細な詳細をより正確に把握することが可能になります。
- 参考スコア(独自算出の注目度): 26.322856874796702
- License:
- Abstract: Recent advances in vision-language models (VLMs) have demonstrated the advantages of processing images at higher resolutions and utilizing multi-crop features to preserve native resolution details. However, despite these improvements, existing vision transformers (ViTs) still struggle to capture fine-grained details from less prominent objects, charts, and embedded text, limiting their effectiveness in certain tasks. In this paper, we extend recent high-resolution and multi-crop techniques by not only preserving the native resolution, but zooming in beyond it and extracting features from a large number of image sub-crops. This enhancement allows our model to better capture fine-grained details, overcoming the limitations of current ViTs. To manage the increased token count and computational complexity, we demonstrate that a simple mean-pooling aggregation over tokens is effective. Our model, Dragonfly, achieves competitive performance on general-domain tasks such as ScienceQA and AI2D, and excels in tasks requiring fine-grained image understanding, including TextVQA and ChartQA. Among models in the 7-8B parameter range, Dragonfly consistently ranks at the top across ten general-domain benchmarks, achieving the highest or second-highest scores in most cases, outperforming models that are significantly larger or trained on larger datasets. Our biomedical model, Dragonfly-Med, sets new benchmarks on several medical tasks, achieving 91.6% accuracy on SLAKE (compared to 84.8% for Med-Gemini), a 67.1% token F1 score on Path-VQA (compared to 62.7% for Med-PaLM M), and state-of-the-art results across the majority of image captioning tasks. Overall, our work highlights the persistent challenge of engineering visual representations with fixed-resolution ViTs, and proposes a simple yet effective solution to address this issue and boost performance in both general and specialized domains.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、高解像度で画像を処理することの利点を実証し、ネイティブ解像度の詳細を保存するためのマルチクロップ機能を活用している。
しかし、これらの改善にもかかわらず、既存の視覚変換器(ViT)は、あまり目立たないオブジェクト、チャート、埋め込みテキストから細かな詳細を捉えるのに苦慮し、特定のタスクにおける有効性を制限している。
本稿では,近年の高解像度・マルチクロップ技術を拡張し,ネイティブ解像度を保存するだけでなく,その先をズームインし,多数の画像サブクロップから特徴を抽出する。
この拡張により、現在のViTの限界を克服して、より詳細な詳細をより正確に把握することが可能になります。
トークン数の増加と計算複雑性を管理するために,トークンに対する単純な平均プールアグリゲーションが有効であることを示す。
我々のモデルであるDragonflyは、ScienceQAやAI2Dといった一般的なドメインタスクの競合性能を達成し、TextVQAやChartQAといったきめ細かい画像理解を必要とするタスクに優れています。
7-8Bパラメータ範囲のモデルの中で、Dragonflyは10の一般ドメインベンチマークで一貫してトップにランクインし、ほとんどのケースで最高または2番目に高いスコアを獲得し、より大きなデータセットで大幅に大きく訓練されたモデルよりも優れています。
我々のバイオメディカルモデルであるDragonfly-Medは、SLAKE(Med-Geminiは84.8%)の91.6%の精度、Path-VQA(Med-PaLM Mは62.7%)の67.1%のトークンF1スコア、画像キャプションタスクの大部分が最先端の結果である。
全体として、我々は、固定解像度のViTを用いたエンジニアリング視覚表現の永続的な課題を強調し、この問題に対処し、一般的なドメインと専門ドメインの両方のパフォーマンスを向上させるための、シンプルで効果的なソリューションを提案する。
関連論文リスト
- Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models [27.45225442048711]
CCMD-8Mを導入し、視覚中心のタスクと視覚言語タスクを統一する際のデータ障壁を克服する。
また、Griffon-Gは、単一のエンドツーエンドパラダイム内の視覚中心タスクと視覚言語タスクの両方に対処する一般的な大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2024-10-21T16:30:29Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Evaluating the Efficacy of Prompt-Engineered Large Multimodal Models Versus Fine-Tuned Vision Transformers in Image-Based Security Applications [2.8161155726745237]
大規模マルチモーダルモデル(LMM)は、テキストや画像などの複数のモダリティを統合することで、複雑なデータを解釈し分析するように設計されている。
本稿では,視覚変換器(ViT)モデルと比較して,画像とテキストの両方を処理するプロンプトエンジニアリングLMMの適用性と有効性について検討する。
視覚的に明らかでないタスクでは、ViTモデルは25のマルウェアクラスの予測では97.11%、5つのマルウェアファミリーの予測では97.61%のF1スコアを達成した。
論文 参考訳(メタデータ) (2024-03-26T15:20:49Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - MaxViT: Multi-Axis Vision Transformer [19.192826213493838]
多軸アテンションと呼ばれる効率的でスケーラブルなアテンションモデルを導入する。
提案するアテンションモデルと畳み込みを効果的に組み合わせることで,新しいアーキテクチャ要素を提案する。
視覚タスクの幅広い範囲におけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-04-04T17:59:44Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。