論文の概要: COMMA: Co-Articulated Multi-Modal Learning
- arxiv url: http://arxiv.org/abs/2401.00268v1
- Date: Sat, 30 Dec 2023 15:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 18:22:09.813519
- Title: COMMA: Co-Articulated Multi-Modal Learning
- Title(参考訳): comma: 共学習型マルチモーダル学習
- Authors: Lianyu Hu, Liqing Gao, Zekang Liu, Chi-Man Pun, Wei Feng
- Abstract要約: 本稿では,従来の手法の制約に対処するため,COMMA(Co-Articulated Multi-Modal Learning)を提案する。
本手法は,両枝の表現アライメントを高めるプロンプトを生成するために,両枝からのプロンプトを考察する。
提案手法は,新しいクラスへの一般化,新しいターゲットデータセット,目に見えないドメインシフトの3つのタスクにまたがって評価する。
- 参考スコア(独自算出の注目度): 39.778958624066185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained large-scale vision-language models such as CLIP have demonstrated
excellent generalizability over a series of downstream tasks. However, they are
sensitive to the variation of input text prompts and need a selection of prompt
templates to achieve satisfactory performance. Recently, various methods have
been proposed to dynamically learn the prompts as the textual inputs to avoid
the requirements of laboring hand-crafted prompt engineering in the fine-tuning
process. We notice that these methods are suboptimal in two aspects. First, the
prompts of the vision and language branches in these methods are usually
separated or uni-directionally correlated. Thus, the prompts of both branches
are not fully correlated and may not provide enough guidance to align the
representations of both branches. Second, it's observed that most previous
methods usually achieve better performance on seen classes but cause
performance degeneration on unseen classes compared to CLIP. This is because
the essential generic knowledge learned in the pretraining stage is partly
forgotten in the fine-tuning process. In this paper, we propose Co-Articulated
Multi-Modal Learning (COMMA) to handle the above limitations. Especially, our
method considers prompts from both branches to generate the prompts to enhance
the representation alignment of both branches. Besides, to alleviate forgetting
about the essential knowledge, we minimize the feature discrepancy between the
learned prompts and the embeddings of hand-crafted prompts in the pre-trained
CLIP in the late transformer layers. We evaluate our method across three
representative tasks of generalization to novel classes, new target datasets
and unseen domain shifts. Experimental results demonstrate the superiority of
our method by exhibiting a favorable performance boost upon all tasks with high
efficiency.
- Abstract(参考訳): CLIPのような事前訓練された大規模視覚言語モデルは、一連の下流タスクに対して優れた一般化性を示している。
しかし、入力テキストプロンプトのバリエーションに敏感であり、十分なパフォーマンスを達成するためにプロンプトテンプレートの選択が必要である。
近年,微調整過程における手作りプロンプトエンジニアリングの手間を回避するために,テキスト入力としてプロンプトを動的に学習する手法が提案されている。
これらの手法は2つの側面において最適である。
第一に、これらの方法における視覚と言語分岐のプロンプトは通常、分離または一方向的に相関する。
したがって、両方の枝のプロンプトは完全に相関せず、両方の枝の表現を整列するのに十分なガイダンスを提供しない可能性がある。
第二に、ほとんどの以前のメソッドは、通常、見たクラスのパフォーマンスが向上するが、見えないクラスのパフォーマンスがCLIPと比較して低下する。
これは、事前学習段階で学んだ本質的な総合的な知識が、微調整の過程で部分的に忘れられているためである。
本稿では,上記の制限を扱うために,共学習型マルチモーダル学習(comma)を提案する。
特に,両枝の表現アライメントを高めるプロンプトを生成するために,両枝からのプロンプトを検討する。
また,本質的な知識の忘れを緩和するために,学習したプロンプトと,後期トランスフォーマー層の事前学習されたクリップへの手作りプロンプトの埋め込みとの差を最小限に抑える。
提案手法は,新しいクラスへの一般化,新しいターゲットデータセット,未認識のドメインシフトという3つの代表的なタスクを通して評価する。
実験の結果,全てのタスクにおいて高い効率で良好な性能向上が得られた。
関連論文リスト
- Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。
P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Multi-Prompt with Depth Partitioned Cross-Modal Learning [25.239388488952375]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。
本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。
我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-10T14:54:29Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Prompt Learning with Optimal Transport for Vision-Language Models [25.928455328563402]
複数の包括的プロンプトを学習し、内在的属性や外在的文脈などのカテゴリの特徴を多様に記述する。
この問題を解決するために,視覚とテキストのモダリティに最適なトランスポートを提案する。
内ループでは、視覚的特徴とプロンプトをシンクホーンアルゴリズムで調整するために最適な輸送距離を最適化する一方、外ループでは、教師付きデータからこの距離でプロンプトを学習する。
論文 参考訳(メタデータ) (2022-10-03T22:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。