論文の概要: Text as Any-Modality for Zero-Shot Classification by Consistent Prompt Tuning
- arxiv url: http://arxiv.org/abs/2508.06382v1
- Date: Fri, 08 Aug 2025 15:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.278322
- Title: Text as Any-Modality for Zero-Shot Classification by Consistent Prompt Tuning
- Title(参考訳): 一貫性プロンプトチューニングによるゼロショット分類のための任意のモダリティとしてのテキスト
- Authors: Xiangyu Wu, Feng Yu, Yang Yang, Jianfeng Lu,
- Abstract要約: 汎用表現モデルを構築するためのスケーラブルなアプローチであるTaAM-CPT(Consistent Prompt Tuning)を用いてテキストをAny-Modalityとして提示する。
TaAM-CPTは、事前訓練されたモデルからモダリティ・プロンプト・プール、テキスト構成、モダリティ・アライン・テキスト・エンコーダを構成する。
異なるモダリティ間の学習を調和させるため、TaAM-CPTはモーダル内およびモーダル間学習の目的を設計する。
- 参考スコア(独自算出の注目度): 10.744123073654544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of prompt tuning with multimodal learning has shown significant generalization abilities for various downstream tasks. Despite advancements, existing methods heavily depend on massive modality-specific labeled data (e.g., video, audio, and image), or are customized for a single modality. In this study, we present Text as Any-Modality by Consistent Prompt Tuning (TaAM-CPT), a scalable approach for constructing a general representation model toward unlimited modalities using solely text data. TaAM-CPT comprises modality prompt pools, text construction, and modality-aligned text encoders from pre-trained models, which allows for extending new modalities by simply adding prompt pools and modality-aligned text encoders. To harmonize the learning across different modalities, TaAM-CPT designs intra- and inter-modal learning objectives, which can capture category details within modalities while maintaining semantic consistency across different modalities. Benefiting from its scalable architecture and pre-trained models, TaAM-CPT can be seamlessly extended to accommodate unlimited modalities. Remarkably, without any modality-specific labeled data, TaAM-CPT achieves leading results on diverse datasets spanning various modalities, including video classification, image classification, and audio classification. The code is available at https://github.com/Jinx630/TaAM-CPT.
- Abstract(参考訳): 多モーダル学習と即時チューニングの統合は、様々な下流タスクに対して重要な一般化能力を示している。
進歩にもかかわらず、既存の手法は巨大なモダリティ固有のラベル付きデータ(ビデオ、オーディオ、画像など)に大きく依存している。
本研究では、テキストデータのみを用いて、任意のモダリティに対する汎用表現モデルを構築するためのスケーラブルなアプローチである、Consistent Prompt Tuning (TaAM-CPT)によるAny-Modalityとしてテキストを提示する。
TaAM-CPTは、事前訓練されたモデルからモダリティ・プロンプト・プール、テキスト構成、モダリティ・アライン・テキスト・エンコーダで構成されており、プロンプト・プールとモダリティ・アライン・テキスト・エンコーダを追加するだけで新しいモダリティを拡張できる。
異なるモダリティ間の学習を調和させるため、TaAM-CPTは、異なるモダリティ間のセマンティック一貫性を維持しながら、モダリティ内のカテゴリの詳細をキャプチャできる、モダリティ内およびモダリティ間学習目標を設計する。
TaAM-CPTは、スケーラブルなアーキテクチャと事前訓練されたモデルから恩恵を受け、無制限のモダリティを許容できるようにシームレスに拡張できる。
TaAM-CPTは、ビデオ分類、画像分類、音声分類など、様々なモダリティにまたがる様々なデータセットにおいて、モダリティ特異的なラベル付きデータなしで先行的な結果が得られる。
コードはhttps://github.com/Jinx630/TaAM-CPTで入手できる。
関連論文リスト
- Integrated Structural Prompt Learning for Vision-Language Models [15.002501540565781]
本稿では、視覚言語モデル(VLM)のための統合構造プロンプト(ISP)を提案する。
ISPは、学習可能なプロンプトと凍結トークンの間の構造関係をモデル化するために、自己構造的および相互構造的プロンプトモジュールを導入している。
ISPは最先端の手法に対して競争力を発揮する。
論文 参考訳(メタデータ) (2025-07-08T04:59:58Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality [11.03329286331929]
モダリティが不完全である場合の学習行動について,本研究は初めて包括的調査を行う。
本稿では,マルチモーダルなプロンプトを生成し,マルチステップなプロンプトチューニングを実現するための,新しい多段階適応型プロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-07T03:33:46Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。
複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。
テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文 参考訳(メタデータ) (2022-11-30T16:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。