論文の概要: Dragonfly: Multi-Resolution Zoom Supercharges Large Visual-Language Model
- arxiv url: http://arxiv.org/abs/2406.00977v1
- Date: Mon, 3 Jun 2024 04:17:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:27:34.874492
- Title: Dragonfly: Multi-Resolution Zoom Supercharges Large Visual-Language Model
- Title(参考訳): Dragonfly:マルチリゾリューションズームが大型のビジュアルランゲージモデルをスーパーチャージャー
- Authors: Kezhen Chen, Rahul Thapa, Rahul Chalamala, Ben Athiwaratkun, Shuaiwen Leon Song, James Zou,
- Abstract要約: 画像の高解像度化は、言語モデルに2つの大きな課題をもたらす。
これは言語モデルに必要なコンテキスト長を拡張し、非効率になり、モデルのコンテキスト制限に達する。
我々はDragonflyを紹介した。Dragonflyは、画像領域に関するきめ細かい視覚的理解と推論を強化する新しいLMMアーキテクチャである。
- 参考スコア(独自算出の注目度): 23.684517974743837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large multimodal models (LMMs) suggest that higher image resolution enhances the fine-grained understanding of image details, crucial for tasks such as visual commonsense reasoning and analyzing biomedical images. However, increasing input resolution poses two main challenges: 1) It extends the context length required by the language model, leading to inefficiencies and hitting the model's context limit; 2) It increases the complexity of visual features, necessitating more training data or more complex architecture. We introduce Dragonfly, a new LMM architecture that enhances fine-grained visual understanding and reasoning about image regions to address these challenges. Dragonfly employs two key strategies: multi-resolution visual encoding and zoom-in patch selection. These strategies allow the model to process high-resolution images efficiently while maintaining reasonable context length. Our experiments on eight popular benchmarks demonstrate that Dragonfly achieves competitive or better performance compared to other architectures, highlighting the effectiveness of our design. Additionally, we finetuned Dragonfly on biomedical instructions, achieving state-of-the-art results on multiple biomedical tasks requiring fine-grained visual understanding, including 92.3% accuracy on the Path-VQA dataset (compared to 83.3% for Med-Gemini) and the highest reported results on biomedical image captioning. To support model training, we curated a visual instruction-tuning dataset with 5.5 million image-instruction samples in the general domain and 1.4 million samples in the biomedical domain. We also conducted ablation studies to characterize the impact of various architectural designs and image resolutions, providing insights for future research on visual instruction alignment. The codebase and model are available at https://github.com/togethercomputer/Dragonfly.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は、高解像度画像の解像度が、視覚的コモンセンス推論やバイオメディカル画像解析といったタスクにおいて重要な、画像詳細のきめ細かい理解を促進することを示唆している。
しかし、入力解像度の増大は2つの大きな課題をもたらす。
1) 言語モデルに必要なコンテキスト長を拡張し、非効率になり、モデルのコンテキスト限界に達する。
2) 視覚的機能の複雑さを増大させ、より多くのトレーニングデータやより複雑なアーキテクチャを必要とする。
我々はDragonflyという新しいLMMアーキテクチャを導入し、これらの課題に対処するための画像領域のきめ細かい視覚的理解と推論を可能にした。
Dragonflyには、マルチ解像度のビジュアルエンコーディングとズームインパッチ選択という、2つの重要な戦略がある。
これらの戦略により、適切なコンテキスト長を維持しつつ、高解像度画像を効率的に処理することができる。
一般的な8つのベンチマークの実験では、Dragonflyは他のアーキテクチャと比較して、競争力や性能が向上していることが示され、設計の有効性が強調された。
さらに,Dragonflyのバイオメディカルインストラクションを微調整し,Path-VQAデータセット(Med-Geminiの83.3%)の92.3%の精度と,バイオメディカルイメージキャプションの最も高い報告結果を含む,詳細な視覚的理解を必要とする複数のバイオメディカルタスクの最先端の結果を得た。
モデルトレーニングを支援するため,一般領域の550万イメージインストラクションサンプルと,バイオメディカル領域の1.4万サンプルを用いた視覚的インストラクションチューニングデータセットをキュレートした。
また、様々な建築設計や画像解像度の影響を特徴づけるアブレーション研究を行い、視覚的指示のアライメントに関する今後の研究への洞察を提供した。
コードベースとモデルはhttps://github.com/together computer/Dragonfly.comで公開されている。
関連論文リスト
- Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models [27.45225442048711]
CCMD-8Mを導入し、視覚中心のタスクと視覚言語タスクを統一する際のデータ障壁を克服する。
また、Griffon-Gは、単一のエンドツーエンドパラダイム内の視覚中心タスクと視覚言語タスクの両方に対処する一般的な大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2024-10-21T16:30:29Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Evaluating the Efficacy of Prompt-Engineered Large Multimodal Models Versus Fine-Tuned Vision Transformers in Image-Based Security Applications [2.8161155726745237]
大規模マルチモーダルモデル(LMM)は、テキストや画像などの複数のモダリティを統合することで、複雑なデータを解釈し分析するように設計されている。
本稿では,視覚変換器(ViT)モデルと比較して,画像とテキストの両方を処理するプロンプトエンジニアリングLMMの適用性と有効性について検討する。
視覚的に明らかでないタスクでは、ViTモデルは25のマルウェアクラスの予測では97.11%、5つのマルウェアファミリーの予測では97.61%のF1スコアを達成した。
論文 参考訳(メタデータ) (2024-03-26T15:20:49Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - MaxViT: Multi-Axis Vision Transformer [19.192826213493838]
多軸アテンションと呼ばれる効率的でスケーラブルなアテンションモデルを導入する。
提案するアテンションモデルと畳み込みを効果的に組み合わせることで,新しいアーキテクチャ要素を提案する。
視覚タスクの幅広い範囲におけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-04-04T17:59:44Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。