論文の概要: EPIC: Efficient Prompt Interaction for Text-Image Classification
- arxiv url: http://arxiv.org/abs/2507.07415v1
- Date: Thu, 10 Jul 2025 04:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.269971
- Title: EPIC: Efficient Prompt Interaction for Text-Image Classification
- Title(参考訳): EPIC:テキスト画像分類のための効率的なプロンプトインタラクション
- Authors: Xinyao Yu, Hao Sun, Zeyu Ling, Ziwei Niu, Zhenjia Bai, Rui Qin, Yen-Wei Chen, Lanfen Lin,
- Abstract要約: 大規模事前訓練型マルチモーダルモデル(LMM)は一般的にビジョンと言語モダリティを統合するために出現する。
テキスト画像分類(EPIC:Efficient Prompt Interaction for text-image Classification)のための新しい効率的なプロンプトベースのマルチモーダルインタラクション戦略を提案する。
本手法は,他の微調整手法と比較して,計算資源消費量の削減と訓練可能なパラメータの削減を実現する。
- 参考スコア(独自算出の注目度): 12.278321407201458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large-scale pre-trained multimodal models (LMMs) generally emerge to integrate the vision and language modalities, achieving considerable success in multimodal tasks, such as text-image classification. The growing size of LMMs, however, results in a significant computational cost for fine-tuning these models for downstream tasks. Hence, prompt-based interaction strategy is studied to align modalities more efficiently. In this context, we propose a novel efficient prompt-based multimodal interaction strategy, namely Efficient Prompt Interaction for text-image Classification (EPIC). Specifically, we utilize temporal prompts on intermediate layers, and integrate different modalities with similarity-based prompt interaction, to leverage sufficient information exchange between modalities. Utilizing this approach, our method achieves reduced computational resource consumption and fewer trainable parameters (about 1\% of the foundation model) compared to other fine-tuning strategies. Furthermore, it demonstrates superior performance on the UPMC-Food101 and SNLI-VE datasets, while achieving comparable performance on the MM-IMDB dataset.
- Abstract(参考訳): 近年、大規模事前学習型マルチモーダルモデル (LMM) は一般的にビジョンと言語モダリティを統合するために登場し、テキスト画像分類などのマルチモーダルタスクでかなりの成功を収めている。
しかし、LMMのサイズが大きくなると、下流タスクのためにこれらのモデルを微調整するのにかなりの計算コストがかかる。
したがって、より効率的にモダリティを整列させるために、プロンプトベースの相互作用戦略が研究される。
そこで本研究では,テキスト画像分類(EPIC)のための効率的なプロンプトインタラクション(Efficient Prompt Interaction)という,効率的なプロンプトベースのマルチモーダルインタラクション戦略を提案する。
具体的には、中間層上の時間的プロンプトを利用し、類似性に基づくプロンプトインタラクションと異なるモダリティを統合し、モダリティ間の十分な情報交換を利用する。
提案手法は, 計算資源の削減, トレーニング可能なパラメータ(基礎モデルの約1倍)の削減を実現する。
さらに、UPMC-Food101データセットとSNLI-VEデータセットでは優れたパフォーマンスを示し、MM-IMDBデータセットでは同等のパフォーマンスを実現している。
関連論文リスト
- Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。
モデル入力に直接デモ例を埋め込む。
長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文 参考訳(メタデータ) (2025-05-26T10:49:44Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model [15.449472477182061]
視覚と言語相互作用の現在のアプローチは、自己注意に基づく方法と、相互注意に基づく方法の2つのカテゴリに分類される。
MLLMの自己注意機構を複合注意機構に変更した。
EE-MLLMは、限られたトレーニングデータでFlamingoを著しく上回り、H800 GPUでプリフィル時間を79msに短縮する。
本稿では,EE-MLLM-Fという学習不要な変種について述べる。
論文 参考訳(メタデータ) (2024-08-21T17:36:37Z) - Shapley Value-based Contrastive Alignment for Multimodal Information Extraction [17.04865437165252]
我々は、画像-コンテキスト-テキストインタラクションの新しいパラダイムを導入する。
本稿では,新しいシェープ値に基づくコントラストアライメント(Shap-CA)法を提案する。
我々の手法は既存の最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-07-25T08:15:43Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Memory-Inspired Temporal Prompt Interaction for Text-Image
Classification [13.449375069856684]
我々は、人間の記憶戦略、すなわちメモリインスパイアされたテンポラルプロンプトインタラクション(MITP)にインスパイアされた、新しいプロンプトベースのマルチモーダルインタラクション戦略を提案する。
我々は、中間層上の時間的プロンプトを利用して取得段階を模倣し、類似性に基づくプロンプト相互作用を利用してメモリ統合を模倣し、メモリアクティベーションを模倣するプロンプト生成戦略を採用する。
比較的少ないメモリ使用量とトレーニング可能なパラメータの2.0Mのデータセットで競合する結果が得られる。
論文 参考訳(メタデータ) (2024-01-26T13:36:12Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。