論文の概要: Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2408.02034v2
- Date: Fri, 9 Aug 2024 04:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 17:59:25.711314
- Title: Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models
- Title(参考訳): Mini-Monkey: マルチモーダル大規模言語モデルのためのマルチスケール適応型クロップ
- Authors: Mingxin Huang, Yuliang Liu, Dingkang Liang, Lianwen Jin, Xiang Bai,
- Abstract要約: Mini-Monkeyは、マルチスケール適応作物戦略(MSAC)と呼ばれるプラグアンドプレイ方式を組み込んだ軽量MLLMである。
Mini-Monkeyは適応的にマルチスケールの表現を生成し、様々なスケールから非セグメンテーションオブジェクトを選択できる。
OCRBenchでは、Mini-Monkeyは802のスコアを獲得し、8Bパラメーターの最先端モデルであるInternVL2-8Bを上回っている。
- 参考スコア(独自算出の注目度): 87.09900996643516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been significant interest in enhancing the capability of multimodal large language models (MLLMs) to process high-resolution images. Most existing methods focus on adopting a cropping strategy to improve the ability of multimodal large language models to understand image details. However, this cropping operation inevitably causes the segmentation of objects and connected areas, which impairs the MLLM's ability to recognize small or irregularly shaped objects or text. This issue is particularly evident in lightweight MLLMs. Addressing this issue, we propose Mini-Monkey, a lightweight MLLM that incorporates a plug-and-play method called multi-scale adaptive crop strategy (MSAC). Mini-Monkey adaptively generates multi-scale representations, allowing it to select non-segmented objects from various scales. To mitigate the computational overhead introduced by MSAC, we propose a Scale Compression Mechanism (SCM), which effectively compresses image tokens. Mini-Monkey achieves state-of-the-art performance among 2B-parameter MLLMs. It not only demonstrates leading performance on a variety of general multimodal understanding tasks but also shows consistent improvements in document understanding capabilities. On the OCRBench, Mini-Monkey achieves a score of 802, outperforming 8B-parameter state-of-the-art model InternVL2-8B. Besides, our model and training strategy are very efficient, which can be trained with only eight RTX 3090. The code is available at https://github.com/Yuliang-Liu/Monkey.
- Abstract(参考訳): 近年,マルチモーダル大規模言語モデル (MLLM) の高解像度画像処理能力向上への関心が高まっている。
既存のほとんどの手法は、画像の詳細を理解するためのマルチモーダルな大規模言語モデルの能力を改善するために、収穫戦略を採用することに重点を置いている。
しかし、この収穫操作は必然的にオブジェクトと連結領域のセグメンテーションを引き起こし、MLLMが小さなまたは不規則な形やテキストを認識する能力を損なう。
この問題は軽量MLLMでは特に顕著である。
この問題に対処するため,マルチスケール適応作物戦略(MSAC)と呼ばれるプラグアンドプレイ方式を組み込んだ軽量MLLMであるMini-Monkeyを提案する。
Mini-Monkeyは適応的にマルチスケールの表現を生成し、様々なスケールから非セグメンテーションオブジェクトを選択できる。
画像トークンを効果的に圧縮するスケール圧縮機構(SCM)を提案する。
Mini-Monkeyは2BパラメータMLLM間の最先端性能を実現する。
これは、様々な汎用マルチモーダル理解タスクにおける主要なパフォーマンスを示すだけでなく、文書理解能力の一貫した改善を示す。
OCRBenchでは、Mini-Monkeyのスコアは802で、8Bパラメータの最先端モデルであるInternVL2-8Bを上回っている。
さらに、我々のモデルとトレーニング戦略は非常に効率的で、8つのRTX 3090でトレーニングできる。
コードはhttps://github.com/Yuliang-Liu/Monkeyで入手できる。
関連論文リスト
- Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Multimodal Adaptation of CLIP for Few-Shot Action Recognition [42.88862774719768]
本稿では,これらの問題に対処するMultimodal Adaptation of CLIP (MA-CLIP)を提案する。
私たちが設計したアダプタは、タスク指向の時間的モデリングのためのビデオテキストソースからの情報を組み合わせることができる。
当社のMA-CLIPはプラグイン・アンド・プレイであり、様々な数発のアクション認識時間的アライメントメトリックで使用することができる。
論文 参考訳(メタデータ) (2023-08-03T04:17:25Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - MAXIM: Multi-Axis MLP for Image Processing [19.192826213493838]
本稿では,画像処理タスクの汎用的なバックボーンとして,MAXIMと呼ばれるマルチ軸アーキテクチャを提案する。
MAXIMはUNet型の階層構造を使用し、空間的なゲートによって可能となる長距離相互作用をサポートする。
その結果, MAXIMモデルにより, 画像処理タスクの10以上のベンチマークにおいて, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-01-09T09:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。