論文の概要: EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2409.16723v1
- Date: Wed, 25 Sep 2024 08:22:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 04:50:49.388803
- Title: EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models
- Title(参考訳): EAGLE:マルチモーダル大言語モデルのための効率的な任意参照ビジュアルプロンプトの理解を目指して
- Authors: Jiacheng Zhang, Yang Jiao, Shaoxiang Chen, Jingjing Chen, Yu-Gang Jiang,
- Abstract要約: 本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
- 参考スコア(独自算出の注目度): 80.00303150568696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Multimodal Large Language Models (MLLMs) have sparked great research interests owing to their exceptional content-reasoning and instruction-following capabilities. To effectively instruct an MLLM, in addition to conventional language expressions, the practice of referring to objects by painting with brushes on images has emerged as a prevalent tool (referred to as "referring visual prompts") due to its efficacy in aligning the user's intention with specific image regions. To accommodate the most common referring visual prompts, namely points, boxes, and masks, existing approaches initially utilize specialized feature encoding modules to capture the semantics of the highlighted areas indicated by these prompts. Subsequently, these encoded region features are adapted to MLLMs through fine-tuning on a meticulously curated multimodal instruction dataset. However, such designs suffer from redundancy in architecture. Moreover, they face challenges in effectively generalizing when encountering a diverse range of arbitrary referring visual prompts in real-life scenarios. To address the above issues, we propose EAGLE, a novel MLLM that empowers comprehension of arbitrary referring visual prompts with less training efforts than existing approaches. Specifically, our EAGLE maintains the innate format of the referring visual prompts as colored patches rendered on the given image for conducting the instruction tuning. Our approach embeds referring visual prompts as spatial concepts conveying specific spatial areas comprehensible to the MLLM, with the semantic comprehension of these regions originating from the MLLM itself. Besides, we also propose a Geometry-Agnostic Learning paradigm (GAL) to further disentangle the MLLM's region-level comprehension with the specific formats of referring visual prompts. Extensive experiments are conducted to prove the effectiveness of our proposed method.
- Abstract(参考訳): 近年,Multimodal Large Language Models (MLLMs) が注目されている。
MLLMを効果的に指示するために、従来の言語表現に加えて、ユーザの意図を特定の画像領域に合わせる効果により、画像にブラシを塗ってオブジェクトを参照する慣行が、一般的なツール(「視覚的プロンプトの参照」と呼ばれる)として現れている。
最も一般的な視覚的プロンプト、すなわち点、ボックス、マスクに対応するために、既存のアプローチは、当初、これらのプロンプトによって示される強調された領域のセマンティクスをキャプチャするために、特別な特徴符号化モジュールを使用していた。
その後、これらの符号化された領域特徴は、微調整により、細かなキュレートされたマルチモーダル命令データセットに適応する。
しかし、このような設計は建築の冗長性に悩まされている。
さらに、現実のシナリオにおいて、様々な種類の任意の参照視覚的プロンプトに遭遇する場合、効果的に一般化するという課題に直面している。
上記の課題に対処するために,既存のアプローチよりも少ないトレーニング努力で任意の参照視覚刺激の理解を促進する新しいMLLMであるEAGLEを提案する。
具体的には、EAGLEは、指示調律を行うために、与えられた画像に色付きパッチで描画された参照視覚プロンプトの固有形式を維持している。
本手法は,視覚的プロンプトを,空間的領域をMLLMに理解可能な空間的概念として,MLLM自体を起源とする領域の意味的理解を組み込んだものである。
また、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに混乱させるゲノメトリ・アグノスティック・ラーニング・パラダイム(GAL)を提案する。
提案手法の有効性を実証するために, 大規模実験を行った。
関連論文リスト
- Visual Prompting in Multimodal Large Language Models: A Survey [95.75225825537528]
MLLM(Multimodal large language model)は、視覚機能を備えた事前訓練された多言語モデル(LLM)である。
ビジュアルプロンプトはよりきめ細かな自由形式のビジュアルインストラクションのために現れた。
本稿では,視覚的プロンプト,即時生成,構成的推論,即時学習に焦点をあてる。
論文 参考訳(メタデータ) (2024-09-05T08:47:34Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。
MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。
我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。