論文の概要: MM-Prompt: Cross-Modal Prompt Tuning for Continual Visual Question Answering
- arxiv url: http://arxiv.org/abs/2505.19455v1
- Date: Mon, 26 May 2025 03:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.135288
- Title: MM-Prompt: Cross-Modal Prompt Tuning for Continual Visual Question Answering
- Title(参考訳): MM-Prompt: 継続的な視覚的質問応答のためのクロスモーダルプロンプトチューニング
- Authors: Xu Li, Fan Lyu,
- Abstract要約: 本稿では,クロスモーダル・プロンプト・クエリとクロスモーダル・プロンプト・リカバリを組み合わせた新しいフレームワークMM-Promptを提案する。
大規模な実験により、MM-Promptは精度と知識保持の従来のアプローチを上回ることが示されている。
- 参考スコア(独自算出の注目度): 5.992236162500932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual Visual Question Answering (CVQA) based on pre-trained models(PTMs) has achieved promising progress by leveraging prompt tuning to enable continual multi-modal learning. However, most existing methods adopt cross-modal prompt isolation, constructing visual and textual prompts separately, which exacerbates modality imbalance and leads to degraded performance over time. To tackle this issue, we propose MM-Prompt, a novel framework incorporating cross-modal prompt query and cross-modal prompt recovery. The former enables balanced prompt selection by incorporating cross-modal signals during query formation, while the latter promotes joint prompt reconstruction through iterative cross-modal interactions, guided by an alignment loss to prevent representational drift. Extensive experiments show that MM-Prompt surpasses prior approaches in accuracy and knowledge retention, while maintaining balanced modality engagement throughout continual learning.
- Abstract(参考訳): 事前学習モデル (PTM) に基づく連続的視覚質問応答 (CVQA) は, 逐次的チューニングを利用して, 連続的マルチモーダル学習を実現することで, 有望な進歩を遂げている。
しかし、既存のほとんどの手法では、視覚的およびテキスト的プロンプトを別々に構成することで、モダリティの不均衡が悪化し、時間の経過とともに性能が低下する。
この問題に対処するために,クロスモーダル・プロンプト・クエリとクロスモーダル・プロンプト・リカバリを組み合わせた新しいフレームワークMM-Promptを提案する。
前者は、クエリ生成中にクロスモーダル信号を組み込むことで、バランスの取れたプロンプト選択を可能にし、後者は、アライメント損失によって誘導される反復的なクロスモーダル相互作用による共同プロンプト再構築を促進し、表現のドリフトを防止する。
広範囲な実験により,MM-Promptは,継続学習を通して,バランスのとれたモダリティエンゲージメントを維持しつつ,精度と知識保持の従来のアプローチを超越していることが示された。
関連論文リスト
- Adaptive Prompting for Continual Relation Extraction: A Within-Task Variance Perspective [23.79259400522239]
本稿では,連続関係抽出における破滅的忘れに対処する新しい手法を提案する。
提案手法では各タスクにプロンプトプールを導入し,タスク内の変動を捉えるとともに,タスク間の差異を増大させる。
論文 参考訳(メタデータ) (2024-12-11T11:00:33Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - DUMA: Reading Comprehension with Transposition Thinking [107.89721765056281]
MRC (Multi-choice Machine Reading) は、解答オプションのセットから正しい解答を決定するためのモデルを必要とする。
新しい Dual Multi-head Co-Attention (DUMA) モデルは、多選択MRC問題を解決する人間の転置思考プロセスにインスパイアされている。
論文 参考訳(メタデータ) (2020-01-26T07:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。