論文の概要: Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models
- arxiv url: http://arxiv.org/abs/2311.06607v4
- Date: Mon, 26 Aug 2024 06:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 00:57:20.331946
- Title: Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models
- Title(参考訳): Monkey: 画像解像度とテキストラベルは、大規模なマルチモーダルモデルにとって重要なものだ
- Authors: Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu, Xiang Bai,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は視覚言語タスクにおいて有望であるが、高解像度入力と詳細なシーン理解に苦慮している。
LMM機能を強化するためにMonkeyを導入します。
モンキーは入力画像を均一なパッチに分割して処理し、それぞれのサイズ(例:448x448)をよく訓練されたビジョンエンコーダのトレーニングに使用する。
解像度は1344x896ピクセルまでで、複雑な視覚情報を詳細にキャプチャできる。
- 参考スコア(独自算出の注目度): 55.508049882447395
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Multimodal Models (LMMs) have shown promise in vision-language tasks but struggle with high-resolution input and detailed scene understanding. Addressing these challenges, we introduce Monkey to enhance LMM capabilities. Firstly, Monkey processes input images by dividing them into uniform patches, each matching the size (e.g., 448x448) used in the original training of the well-trained vision encoder. Equipped with individual adapter for each patch, Monkey can handle higher resolutions up to 1344x896 pixels, enabling the detailed capture of complex visual information. Secondly, it employs a multi-level description generation method, enriching the context for scene-object associations. This two-part strategy ensures more effective learning from generated data: the higher resolution allows for a more detailed capture of visuals, which in turn enhances the effectiveness of comprehensive descriptions. Extensive ablative results validate the effectiveness of our designs. Additionally, experiments on 18 datasets further demonstrate that Monkey surpasses existing LMMs in many tasks like Image Captioning and various Visual Question Answering formats. Specially, in qualitative tests focused on dense text question answering, Monkey has exhibited encouraging results compared with GPT4V. Code is available at https://github.com/Yuliang-Liu/Monkey.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は視覚言語タスクにおいて有望であるが、高解像度入力と詳細なシーン理解に苦慮している。
これらの課題に対処するため、LMM機能を強化するためにMonkeyを導入します。
まず、Monkeyはそれらを均一なパッチに分割して入力画像を処理し、それぞれが訓練されたビジョンエンコーダのトレーニングで使用されるサイズ(例:448x448)と一致する。
Monkeyにはパッチ毎に個別のアダプタが装備されており、1344x896ピクセルまでの高解像度を処理でき、複雑な視覚情報を詳細にキャプチャすることができる。
第2に、シーンオブジェクト関連のためのコンテキストを豊かにするマルチレベル記述生成手法を用いる。
この2つの戦略は、生成されたデータからより効果的に学習することを保証する。
広範囲なアブレーションにより, 設計の有効性が検証された。
さらに18のデータセットの実験では、Image CaptioningやさまざまなVisual Question Answeringフォーマットなど、多くのタスクにおいて、Monkeyが既存のLMMを上回ることが示されている。
特に、高密度テキスト質問応答に着目した定性テストでは、MonkeyはGPT4Vと比較して奨励的な結果を示した。
コードはhttps://github.com/Yuliang-Liu/Monkeyで入手できる。
関連論文リスト
- Visual Haystacks: Answering Harder Questions About Sets of Images [63.296342841358815]
本稿では,Multi-Image Visual Question Answering(MIQA)の課題について検討する。
大量の画像と自然言語クエリが与えられたら、そのタスクは関連性があり、接地された応答を生成することだ。
大規模マルチモーダルモデル(LMM)に適した新しい検索/QAフレームワークであるMIRAGEを紹介する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition [17.388776062997813]
視覚シーンの画像データとテキスト記述を融合させることにより、識別可能なグローバル表現を構築しようとする。
モチベーションは2つある: 1) 現在のLVLM(Large Vision-Language Models)は、画像のテキスト記述を生成する際に、視覚的な指示に従う際、異常な創発的能力を示す。
有望ではあるが、マルチモーダルVPRソリューションの構築にLVLMを活用することは、効率的なマルチモーダル融合において困難である。
論文 参考訳(メタデータ) (2024-07-09T10:15:31Z) - Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。
我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。
提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文 参考訳(メタデータ) (2024-06-12T17:59:49Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - PixelLM: Pixel Reasoning with Large Multimodal Model [110.500792765109]
PixelLMはピクセルレベルの推論と理解のための効率的かつ効率的なLMMである。
コードブックトークンの隠された埋め込みからマスクを生成し、詳細なターゲット関連情報をエンコードする。
PixelLMは、さまざまなピクセルレベルの画像推論と理解タスクを網羅し、複数のベンチマークで確立されたメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-12-04T03:05:59Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。