論文の概要: Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs
- arxiv url: http://arxiv.org/abs/2310.00582v1
- Date: Sun, 1 Oct 2023 05:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 03:18:38.694979
- Title: Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs
- Title(参考訳): Pink:マルチモーダルLLMにおける参照理解のパワーの解放
- Authors: Shiyu Xuan, Qingpei Guo, Ming Yang, Shiliang Zhang
- Abstract要約: 本稿では,MLLMの参照(RC)能力を向上するための新しい手法を提案する。
本モデルでは,画像中の参照対象を境界ボックスの座標を用いて表現し,その座標を特定の形式でテキストに変換する。
既存のデータセットにおけるアノテーションの可能性を解き放つことにより,様々な設計されたRCタスクによる命令チューニングデータセットを低コストで構築する。
- 参考スコア(独自算出の注目度): 49.88461345825586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal Large Language Models (MLLMs) have shown remarkable capabilities
in many vision-language tasks. Nevertheless, most MLLMs still lack the
Referential Comprehension (RC) ability to identify a specific object or area in
images, limiting their application in fine-grained perception tasks. This paper
proposes a novel method to enhance the RC capability for MLLMs. Our model
represents the referring object in the image using the coordinates of its
bounding box and converts the coordinates into texts in a specific format. This
allows the model to treat the coordinates as natural language. Moreover, we
construct the instruction tuning dataset with various designed RC tasks at a
low cost by unleashing the potential of annotations in existing datasets. To
further boost the RC ability of the model, we propose a self-consistent
bootstrapping method that extends dense object annotations of a dataset into
high-quality referring-expression-bounding-box pairs. The model is trained
end-to-end with a parameter-efficient tuning framework that allows both
modalities to benefit from multi-modal instruction tuning. This framework
requires fewer trainable parameters and less training data. Experimental
results on conventional vision-language and RC tasks demonstrate the superior
performance of our method. For instance, our model exhibits a 12.0% absolute
accuracy improvement over Instruct-BLIP on VSR and surpasses Kosmos-2 by 24.7%
on RefCOCO_val under zero-shot settings. We also attain the top position on the
leaderboard of MMBench. The models, datasets, and codes are publicly available
at https://github.com/SY-Xuan/Pink
- Abstract(参考訳): マルチモーダル大規模言語モデル(mllms)は多くの視覚言語タスクにおいて顕著な能力を示している。
しかしながら、ほとんどのMLLMは画像内の特定の物体や領域を識別する参照理解(Referential Comprehension, RC)能力に欠けており、微粒な知覚タスクでの応用を制限している。
本稿では,MLLMのRC性能向上のための新しい手法を提案する。
本モデルは,画像中の参照対象を境界ボックスの座標を用いて表現し,その座標を特定の形式でテキストに変換する。
これにより、モデルは座標を自然言語として扱うことができる。
さらに、既存のデータセットにおけるアノテーションの可能性を解き放ち、様々な設計されたrcタスクによる命令チューニングデータセットを低コストで構築する。
モデルのRC能力をさらに向上するために,データセットの高密度オブジェクトアノテーションを高品質な参照-表現-バウンディングボックスに拡張する自己一貫性のブートストラップ法を提案する。
このモデルにはパラメータ効率のよいチューニングフレームワークが組み込まれており、マルチモーダル命令チューニングの恩恵を受けることができる。
このフレームワークは、トレーニング可能なパラメータを少なくし、トレーニングデータも少なくする。
従来の視覚言語およびRCタスクの実験結果から,本手法の優れた性能を示す。
例えば、VSR上のインストラクトBLIPよりも12.0%精度が向上し、ゼロショット設定下ではRefCOCO_valでコスモス2を24.7%上回っている。
MMBenchのリーダーボードでもトップの地位を獲得しました。
モデル、データセット、コードはhttps://github.com/SY-Xuan/Pinkで公開されている。
関連論文リスト
- Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - LAMM: Label Alignment for Multi-Modal Prompt Learning [17.478967970736115]
我々は、下流データセットのカテゴリ埋め込みをエンドツーエンドのトレーニングによって調整できる、textbfLAMMという革新的なラベルアライメント手法を提案する。
本手法は,既存のマルチモーダル・プロンプト学習モデルの性能を大幅に向上させる。
提案手法は,他の素早いチューニング手法と比較して,連続学習の優位性を示す。
論文 参考訳(メタデータ) (2023-12-13T15:29:52Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。
支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。
GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文 参考訳(メタデータ) (2023-05-20T16:11:26Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Beyond Simple Meta-Learning: Multi-Purpose Models for Multi-Domain,
Active and Continual Few-Shot Learning [41.07029317930986]
低ラベル方式で動作するモデルの分散感応クラスを提案する。
最初の手法であるSimple CNAPSは階層的に正規化されたマハラノビス距離に基づく分類器を用いる。
我々はさらに、このアプローチをトランスダクティブ学習環境に拡張し、トランスダクティブCNAPSを提案する。
論文 参考訳(メタデータ) (2022-01-13T18:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。