論文の概要: Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2405.15684v1
- Date: Fri, 24 May 2024 16:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:20:55.759554
- Title: Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models
- Title(参考訳): Prompt-Aware Adapter:マルチモーダル大言語モデルのための適応型視覚トークンの学習に向けて
- Authors: Yue Zhang, Hehe Fan, Yi Yang,
- Abstract要約: アダプタは、プロンプトで言及されている特定の関心の対象に関係なく、視覚トークンを生成する。
プロンプト対応アダプタは、プロンプトの特定の焦点に基づいて視覚入力を動的に埋め込む。
このアプローチは、LLMが視覚内容を理解し解釈する能力を大幅に向上させる。
- 参考スコア(独自算出の注目度): 40.54588229513487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To bridge the gap between vision and language modalities, Multimodal Large Language Models (MLLMs) usually learn an adapter that converts visual inputs to understandable tokens for Large Language Models (LLMs). However, most adapters generate consistent visual tokens, regardless of the specific objects of interest mentioned in the prompt. Since these adapters distribute equal attention to every detail in the image and focus on the entire scene, they may increase the cognitive load for LLMs, particularly when processing complex scenes. To alleviate this problem, we propose prompt-aware adapters. These adapters are designed with the capability to dynamically embed visual inputs based on the specific focus of the prompt. Specifically, prompt-aware adapters utilize both global and local textual features to capture the most relevant visual clues from the prompt at both coarse and fine granularity levels. This approach significantly enhances the ability of LLMs to understand and interpret visual content. Experiments on various visual question answering tasks, such as counting and position reasoning, demonstrate the effectiveness of prompt-aware adapters.
- Abstract(参考訳): 視覚と言語モダリティのギャップを埋めるために、MLLM(Multimodal Large Language Models)は通常、視覚入力をLLM(Large Language Models)の理解可能なトークンに変換するアダプタを学ぶ。
しかし、ほとんどのアダプタは、プロンプトで言及されている特定の関心の対象に関係なく、一貫した視覚トークンを生成する。
これらのアダプタは画像のあらゆる詳細に等しく注意を分散し、シーン全体に焦点を当てるため、特に複雑なシーンを処理する場合、LLMの認知負荷を増加させる可能性がある。
この問題を軽減するために,我々はプロンプト対応アダプタを提案する。
これらのアダプタは、プロンプトの特定の焦点に基づいて視覚入力を動的に埋め込むことができるように設計されている。
特に、プロンプト対応アダプタは、グローバルテキストとローカルテキストの特徴の両方を利用して、粗さと微粒度の両方でプロンプトから最も関連性の高い視覚的手がかりをキャプチャする。
このアプローチは、LLMが視覚内容を理解し解釈する能力を大幅に向上させる。
数え上げや位置推定などの様々な視覚的質問応答タスクの実験は、プロンプト対応アダプタの有効性を実証している。
関連論文リスト
- SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。
イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。
本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。
MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。
我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。
この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。
ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Enhancing Multimodal Large Language Models with Multi-instance Visual Prompt Generator for Visual Representation Enrichment [39.84313997541156]
まず、Q-formerのようなクエリベースのトランスフォーマーを用いたアダプタは、単純化されたマルチインスタンス学習法であることを示す。
次に、リッチな視覚表現をLLMに組み込むために、MIVPG(Multi-instance Visual Prompt Generator)と呼ばれる汎用コンポーネントを提案する。
論文 参考訳(メタデータ) (2024-06-05T06:36:43Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。