論文の概要: Dragonfly: Multi-Resolution Zoom Supercharges Large Visual-Language Model
- arxiv url: http://arxiv.org/abs/2406.00977v1
- Date: Mon, 3 Jun 2024 04:17:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:27:34.874492
- Title: Dragonfly: Multi-Resolution Zoom Supercharges Large Visual-Language Model
- Title(参考訳): Dragonfly:マルチリゾリューションズームが大型のビジュアルランゲージモデルをスーパーチャージャー
- Authors: Kezhen Chen, Rahul Thapa, Rahul Chalamala, Ben Athiwaratkun, Shuaiwen Leon Song, James Zou,
- Abstract要約: 画像の高解像度化は、言語モデルに2つの大きな課題をもたらす。
これは言語モデルに必要なコンテキスト長を拡張し、非効率になり、モデルのコンテキスト制限に達する。
我々はDragonflyを紹介した。Dragonflyは、画像領域に関するきめ細かい視覚的理解と推論を強化する新しいLMMアーキテクチャである。
- 参考スコア(独自算出の注目度): 23.684517974743837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large multimodal models (LMMs) suggest that higher image resolution enhances the fine-grained understanding of image details, crucial for tasks such as visual commonsense reasoning and analyzing biomedical images. However, increasing input resolution poses two main challenges: 1) It extends the context length required by the language model, leading to inefficiencies and hitting the model's context limit; 2) It increases the complexity of visual features, necessitating more training data or more complex architecture. We introduce Dragonfly, a new LMM architecture that enhances fine-grained visual understanding and reasoning about image regions to address these challenges. Dragonfly employs two key strategies: multi-resolution visual encoding and zoom-in patch selection. These strategies allow the model to process high-resolution images efficiently while maintaining reasonable context length. Our experiments on eight popular benchmarks demonstrate that Dragonfly achieves competitive or better performance compared to other architectures, highlighting the effectiveness of our design. Additionally, we finetuned Dragonfly on biomedical instructions, achieving state-of-the-art results on multiple biomedical tasks requiring fine-grained visual understanding, including 92.3% accuracy on the Path-VQA dataset (compared to 83.3% for Med-Gemini) and the highest reported results on biomedical image captioning. To support model training, we curated a visual instruction-tuning dataset with 5.5 million image-instruction samples in the general domain and 1.4 million samples in the biomedical domain. We also conducted ablation studies to characterize the impact of various architectural designs and image resolutions, providing insights for future research on visual instruction alignment. The codebase and model are available at https://github.com/togethercomputer/Dragonfly.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は、高解像度画像の解像度が、視覚的コモンセンス推論やバイオメディカル画像解析といったタスクにおいて重要な、画像詳細のきめ細かい理解を促進することを示唆している。
しかし、入力解像度の増大は2つの大きな課題をもたらす。
1) 言語モデルに必要なコンテキスト長を拡張し、非効率になり、モデルのコンテキスト限界に達する。
2) 視覚的機能の複雑さを増大させ、より多くのトレーニングデータやより複雑なアーキテクチャを必要とする。
我々はDragonflyという新しいLMMアーキテクチャを導入し、これらの課題に対処するための画像領域のきめ細かい視覚的理解と推論を可能にした。
Dragonflyには、マルチ解像度のビジュアルエンコーディングとズームインパッチ選択という、2つの重要な戦略がある。
これらの戦略により、適切なコンテキスト長を維持しつつ、高解像度画像を効率的に処理することができる。
一般的な8つのベンチマークの実験では、Dragonflyは他のアーキテクチャと比較して、競争力や性能が向上していることが示され、設計の有効性が強調された。
さらに,Dragonflyのバイオメディカルインストラクションを微調整し,Path-VQAデータセット(Med-Geminiの83.3%)の92.3%の精度と,バイオメディカルイメージキャプションの最も高い報告結果を含む,詳細な視覚的理解を必要とする複数のバイオメディカルタスクの最先端の結果を得た。
モデルトレーニングを支援するため,一般領域の550万イメージインストラクションサンプルと,バイオメディカル領域の1.4万サンプルを用いた視覚的インストラクションチューニングデータセットをキュレートした。
また、様々な建築設計や画像解像度の影響を特徴づけるアブレーション研究を行い、視覚的指示のアライメントに関する今後の研究への洞察を提供した。
コードベースとモデルはhttps://github.com/together computer/Dragonfly.comで公開されている。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model [51.10876815815515]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Masked Image Modeling Advances 3D Medical Image Analysis [0.41674286453548476]
マスク付き画像モデリング(MIM)は、大量の未ラベルデータから学習する能力から注目されている。
本論文は,MIMが自然画像に加えて,3次元医用画像解析も進めることができることを示す。
論文 参考訳(メタデータ) (2022-04-25T15:16:08Z) - Multi-modal Understanding and Generation for Medical Images and Text via
Vision-Language Pre-Training [5.119201893752376]
本稿では,トランスフォーマーアーキテクチャと新しいマルチモーダルアテンションマスキング手法を組み合わせた医療ビジョン言語学習システム(MedViLL)を提案する。
我々は,タスク固有のアーキテクチャを含む様々なベースラインに対して,MedViLLのより優れたダウンストリームタスク性能を実証的に示す。
論文 参考訳(メタデータ) (2021-05-24T15:14:09Z) - Microscopic fine-grained instance classification through deep attention [7.50282814989294]
限られたサンプルを用いた微視的画像データのきめ細かい分類は、コンピュータビジョンとバイオメディカルイメージングにおいて未解決の問題である。
本稿では,エンドツーエンドで2つのタスクを同時に実行する,シンプルで効果的なディープネットワークを提案する。
その結果、堅牢だが軽量なエンドツーエンドのトレーニング可能なディープネットワークが実現し、最先端の結果が得られます。
論文 参考訳(メタデータ) (2020-10-06T15:29:58Z) - Unified Representation Learning for Efficient Medical Image Analysis [0.623075162128532]
統一モダリティ特化特徴表現(UMS-Rep)を用いた医用画像解析のためのマルチタスクトレーニング手法を提案する。
提案手法は,計算資源の全体的な需要を減らし,タスクの一般化と性能の向上を図っている。
論文 参考訳(メタデータ) (2020-06-19T16:52:16Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。