Fugu-MT 論文翻訳(概要): Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

論文の概要: Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

arxiv url: http://arxiv.org/abs/2311.06607v1
Date: Sat, 11 Nov 2023 16:37:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 17:42:27.667042
Title: Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models
Title（参考訳）: monkey: 画像解像度とテキストラベルは、大規模マルチモーダルモデルにとって重要だ
Authors: Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu, Xiang Bai
Abstract要約: 大規模マルチモーダルモデルは、一般的な視覚言語タスクを理解するのに素晴らしい能力を示している。ここでは、Monkeyを提案することで問題に対処する。コントリビューションは2つある: 1) 最初から事前訓練を行わずに、既存のビジョンエンコーダ上に構築できる。
参考スコア（独自算出の注目度）: 57.59547909784445
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Multimodal Models have demonstrated impressive capabilities in understanding general vision-language tasks. However, due to the limitation of supported input resolution (e.g., 448 x 448) as well as the inexhaustive description of the training image-text pair, these models often encounter challenges when dealing with intricate scene understandings and narratives. Here we address the problem by proposing the Monkey. Our contributions are two-fold: 1) without pretraining from the start, our method can be built upon an existing vision encoder (e.g., vit-BigHuge) to effectively improve the input resolution capacity up to 896 x 1344 pixels; 2) we propose a multi-level description generation method, which automatically provides rich information that can guide model to learn contextual association between scenes and objects. Our extensive testing across more than 16 distinct datasets reveals that Monkey achieves consistently competitive performance over the existing LMMs on fundamental tasks, such as Image Captioning, General Visual Question Answering (VQA), and Document-oriented VQA. Models, interactive demo, and the source code are provided at the following https://github.com/Yuliang-Liu/Monkey.
Abstract（参考訳）: 大規模なマルチモーダルモデルは、一般的な視覚言語タスクを理解する素晴らしい能力を示している。しかし、サポート対象の入力解像度(例えば448 x 448)の制限と、トレーニングされた画像テキストペアの説明不足のため、これらのモデルは複雑なシーン理解や物語を扱う際の課題に直面することが多い。ここでは猿を提案することでこの問題に対処します。私たちの貢献は2つあります。 1) 初期から事前学習することなく,既存の視覚エンコーダ(例えばvit-bighuge)上に構築することで,最大896 x 1344ピクセルの入力解像度を効果的に向上させることができる。 2)シーンとオブジェクト間の文脈関係を学習するために,モデルをガイドできるリッチな情報を自動的に提供する多レベル記述生成手法を提案する。 16以上の異なるデータセットにわたる広範なテストの結果、Monkeyは画像キャプチャ、一般的なビジュアル質問回答(VQA)、ドキュメント指向のVQAといった基本的なタスクにおいて、既存のLMMよりも一貫して競争力のあるパフォーマンスを実現しています。モデル、インタラクティブなデモ、ソースコードは以下の https://github.com/Yuliang-Liu/Monkey で提供されている。

関連論文リスト

Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文参考訳（メタデータ） (2024-10-02T16:55:01Z)
FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文参考訳（メタデータ） (2024-09-20T14:33:17Z)
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文参考訳（メタデータ） (2024-08-30T03:16:49Z)
DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming [33.40963475653868]
DocKylinは文書中心のMLLMで、ピクセルレベルとトークンレベルの両方でビジュアルコンテンツをスリム化する。本稿では,ピクセルレベルのスリム化を行うためのAPSプリプロセッシングモジュールを提案する。また,トークンレベルスライミングを行う新しい動的トークンスライミング(DTS)モジュールを提案する。
論文参考訳（メタデータ） (2024-06-27T11:28:36Z)
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文参考訳（メタデータ） (2024-06-12T17:59:49Z)
Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。 COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文参考訳（メタデータ） (2024-05-27T17:59:56Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文参考訳（メタデータ） (2023-10-01T05:53:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。