論文の概要: Tuning Multi-mode Token-level Prompt Alignment across Modalities
- arxiv url: http://arxiv.org/abs/2309.13847v1
- Date: Mon, 25 Sep 2023 03:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 17:12:53.132104
- Title: Tuning Multi-mode Token-level Prompt Alignment across Modalities
- Title(参考訳): モーダリティにおけるマルチモードトークンレベルプロンプトアライメントのチューニング
- Authors: Dongsheng Wang, Miaoge Li, Xinyang Liu, MingSheng Xu, Bo Chen, Hanwang
Zhang
- Abstract要約: 本稿では,多モードのトークンレベルチューニングフレームワークを提案し,モジュール間のプロンプトトークンの集合を学習・調整する。
具体的には、1) 多様な意味表現を保証するマルチモードプロンプト発見、2) トークンレベルのアライメント、そして、きめ細かい類似性を探索する。
- 参考スコア(独自算出の注目度): 48.39511580746271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt tuning pre-trained vision-language models have demonstrated
significant potential in improving open-world visual concept understanding.
However, prior works only primarily focus on single-mode (only one prompt for
each modality) and holistic level (image or sentence) semantic alignment, which
fails to capture the sample diversity, leading to sub-optimal prompt discovery.
To address the limitation, we propose a multi-mode token-level tuning framework
that leverages the optimal transportation to learn and align a set of prompt
tokens across modalities. Specifically, we rely on two essential factors: 1)
multi-mode prompts discovery, which guarantees diverse semantic
representations, and 2) token-level alignment, which helps explore fine-grained
similarity. Thus, the similarity can be calculated as a hierarchical
transportation problem between the modality-specific sets. Extensive
experiments on popular image recognition benchmarks show the superior
generalization and few-shot abilities of our approach. The qualitative analysis
demonstrates that the learned prompt tokens have the ability to capture diverse
visual concepts.
- Abstract(参考訳): 事前訓練された視覚言語モデルのプロンプトチューニングは、オープンワールドの視覚概念理解を改善する大きな可能性を示している。
しかしながら、先行研究は主にシングルモード(各モダリティに対して1つのプロンプトのみ)と全体レベル(画像または文)のセマンティクスアライメントにのみ焦点が当てられ、サンプルの多様性を捉えられず、最適でないプロンプト発見に繋がる。
この制限に対処するために,モダリティ間のプロンプトトークンの集合を学習・調整するために最適な輸送手段を利用するマルチモードトークンレベルチューニングフレームワークを提案する。
具体的には2つの重要な要素に依存しています
1)多モードは多様な意味表現を保証する発見を促す。
2)細かな類似性を探求するトークンレベルのアライメント。
したがって、相似性はモダリティ固有の集合間の階層輸送問題として計算することができる。
一般的な画像認識ベンチマークに関する広範囲な実験は,提案手法の優れた一般化と少ない撮影能力を示している。
質的分析は、学習されたプロンプトトークンが多様な視覚概念をキャプチャする能力を持っていることを示している。
関連論文リスト
- Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Disentangling Multi-view Representations Beyond Inductive Bias [32.15900989696017]
本稿では,表現の解釈可能性と一般化性を両立させる新しい多視点表現分離手法を提案する。
提案手法は,クラスタリングと分類性能において,12種類の比較手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-08-03T09:09:28Z) - MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models [12.397136690734865]
マルチモーダル・ディープ・サイコフィック・プロンプト・タニングと呼ばれる新しいアプローチを提案し,その手法を MuDPT と呼ぶ。
MuDPTは、モデルに依存しない変換ネットワークを学習し、深い階層的な双方向のプロンプト融合を可能にすることで、独立したマルチモーダル・プロンプトチューニングを拡張している。
最先端の手法と比較すると, MuDPT は認識能力と一般化能力が向上し, マージンは明らかである。
論文 参考訳(メタデータ) (2023-06-20T09:15:52Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。
提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文 参考訳(メタデータ) (2023-03-16T06:09:15Z) - Prompt Learning with Optimal Transport for Vision-Language Models [25.928455328563402]
複数の包括的プロンプトを学習し、内在的属性や外在的文脈などのカテゴリの特徴を多様に記述する。
この問題を解決するために,視覚とテキストのモダリティに最適なトランスポートを提案する。
内ループでは、視覚的特徴とプロンプトをシンクホーンアルゴリズムで調整するために最適な輸送距離を最適化する一方、外ループでは、教師付きデータからこの距離でプロンプトを学習する。
論文 参考訳(メタデータ) (2022-10-03T22:21:07Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Cross-Modal Discrete Representation Learning [73.68393416984618]
本稿では,様々なモダリティにまたがるより細かい粒度を捉える表現を学習する自己教師型学習フレームワークを提案する。
我々のフレームワークは、異なるモダリティ間で共有されるベクトル量子化によって生成される離散化された埋め込み空間に依存している。
論文 参考訳(メタデータ) (2021-06-10T00:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。