論文の概要: ATPrompt: Textual Prompt Learning with Embedded Attributes
- arxiv url: http://arxiv.org/abs/2412.09442v1
- Date: Thu, 12 Dec 2024 16:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 15:57:57.098917
- Title: ATPrompt: Textual Prompt Learning with Embedded Attributes
- Title(参考訳): ATPrompt: 組み込み属性によるテキストプロンプト学習
- Authors: Zheng Li, Yibing Song, Penghai Zhao, Ming-Ming Cheng, Xiang Li, Jian Yang,
- Abstract要約: 本稿では,ATPrompt という名前の視覚言語モデルに対する属性埋め込み型テキスト・プロンプト学習手法を提案する。
テキストプロンプトをカテゴリ中心の形式から属性-カテゴリハイブリッド形式に変換する。
使いやすいプラグイン技術として、ATPromptは既存のプロンプトフォーマットをシームレスに置き換えることができる。
- 参考スコア(独自算出の注目度): 73.1352833091256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual-based prompt learning methods primarily employ multiple learnable soft prompts and hard class tokens in a cascading manner as text prompt inputs, aiming to align image and text (category) spaces for downstream tasks. However, current training is restricted to aligning images with predefined known categories and cannot be associated with unknown categories. In this work, we propose utilizing universal attributes as a bridge to enhance the alignment between images and unknown categories. Specifically, we introduce an Attribute-embedded Textual Prompt learning method for vision-language models, named ATPrompt. This approach expands the learning space of soft prompts from the original one-dimensional category level into the multi-dimensional attribute level by incorporating multiple universal attribute tokens into the learnable soft prompts. Through this modification, we transform the text prompt from a category-centric form to an attribute-category hybrid form. To finalize the attributes for downstream tasks, we propose a differentiable attribute search method that learns to identify representative and suitable attributes from a candidate pool summarized by a large language model. As an easy-to-use plug-in technique, ATPrompt can seamlessly replace the existing prompt format of textual-based methods, offering general improvements at a negligible computational cost. Extensive experiments on 11 datasets demonstrate the effectiveness of our method.
- Abstract(参考訳): テキストベースのプロンプト学習手法は、主に複数の学習可能なソフトプロンプトとハードクラストークンをテキストプロンプト入力としてカスケード的に使用し、下流タスクのために画像とテキスト(カテゴリ)空間を整列させることを目的としている。
しかし、現在のトレーニングは、事前に定義された既知のカテゴリと画像の整合に制限されており、未知のカテゴリに関連付けることはできない。
本研究では,画像と未知のカテゴリのアライメントを高めるために,ユニバーサル属性をブリッジとして活用することを提案する。
具体的には,ATPrompt という名前の視覚言語モデルに対して,属性埋め込み型テキスト・プロンプト学習手法を提案する。
このアプローチは、複数の普遍属性トークンを学習可能なソフトプロンプトに組み込むことで、元の1次元カテゴリレベルから多次元属性レベルへのソフトプロンプトの学習空間を拡大する。
この修正により、テキストプロンプトをカテゴリ中心の形式から属性-カテゴリハイブリッド形式に変換する。
下流タスクの属性を確定するために,大言語モデルで要約された候補プールから代表属性と適切な属性を識別する識別可能な属性探索法を提案する。
簡単に使えるプラグイン技術として、ATPromptは既存のテキストベースのメソッドのプロンプトフォーマットをシームレスに置き換えることができる。
11個のデータセットに対する大規模な実験により,本手法の有効性が示された。
関連論文リスト
- SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - From Open-Vocabulary to Vocabulary-Free Semantic Segmentation [78.62232202171919]
オープン語彙セマンティックセグメンテーションにより、モデルはトレーニングデータ以外の新しいオブジェクトカテゴリを識別できる。
現在のアプローチは依然として入力として手動で指定されたクラス名に依存しており、現実世界のアプリケーションに固有のボトルネックを生み出している。
この研究は、定義済みのクラス語彙を必要としない、語彙自由セマンティックパイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T15:17:08Z) - Tree of Attributes Prompt Learning for Vision-Language Models [27.64685205305313]
視覚とテキストのプロンプトトークンを用いて階層構造を学習するためのTAP(Tree of Attributes Prompt Learning)を提案する。
非構造化記述の集合で単にカテゴリ名を拡大する既存の方法とは異なり、本手法は基本的に構造化知識グラフを蒸留する。
提案手法は,ゼロショットのベース・ツー・ノーベル一般化,クロスデータセット転送,および11の多様なデータセットの少数ショット分類において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-10-15T02:37:39Z) - Mixture of Prompt Learning for Vision Language Models [12.828490399811376]
ルーティングモジュールを組み込んだソフトプロンプト学習手法の混合を提案する。
このモジュールはデータセットのさまざまなスタイルをキャプチャし、インスタンス毎に最も適切なプロンプトを動的に選択することができる。
また、意味的にグループ化されたテキストレベルの監視を実装し、各ソフトプロンプトを、そのグループから手動で設計されたテンプレートのトークン埋め込みで初期化する。
論文 参考訳(メタデータ) (2024-09-18T14:25:02Z) - CoAPT: Context Attribute words for Prompt Tuning [5.811993982861212]
少数/ゼロショット画像分類のための新しいプロンプトチューニング手法であるCoAPTを提案する。
中心となる動機は、属性は特定の概念に関する豊富な情報を持つ記述的な単語であるということである。
CoAPTは単語を学習可能なプロンプトチューニングに追加のプロンプトとして統合し、既存の様々なプロンプトチューニング手法に簡単に組み込むことができる。
論文 参考訳(メタデータ) (2024-07-18T08:58:01Z) - Open-Vocabulary Temporal Action Localization using Multimodal Guidance [67.09635853019005]
OVTALでは、すべてのカテゴリのトレーニングデータを明示的にキュレートすることなく、任意のアクションカテゴリをビデオで認識することができる。
この柔軟性は、トレーニング中に見られるアクションカテゴリだけでなく、推論で指定された新しいカテゴリも認識しなければならないため、大きな課題を引き起こす。
我々は,ActionFormerを拡張した新しいオープン語彙フレームワークであるOVFormerを紹介した。
論文 参考訳(メタデータ) (2024-06-21T18:00:05Z) - Instruction-Guided Scene Text Recognition [51.853730414264625]
本稿では、STRを命令学習問題として定式化する命令誘導シーンテキスト認識(IGTR)パラダイムを提案する。
我々は,テキストイメージ理解をガイドする軽量な命令エンコーダ,クロスモーダル機能融合モジュール,マルチタスク応答ヘッドを開発した。
IGTRは、小さなモデルサイズと効率的な推論速度を維持しながら、既存のモデルをかなりの差で上回っている。
論文 参考訳(メタデータ) (2024-01-31T14:13:01Z) - TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model [78.77544632773404]
本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。
TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T03:59:23Z) - Multi-Prompt with Depth Partitioned Cross-Modal Learning [25.239388488952375]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。
本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。
我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-10T14:54:29Z) - Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt
Tuning and Discovery [55.905769757007185]
本稿では,効率的な勾配に基づく最適化により,ハードテキストのプロンプトを頑健に最適化する手法について述べる。
本手法は,テキスト・ツー・イメージ・アプリケーションとテキスト・ツー・テキストアプリケーションの両方に対して,ハードテキスト・ベースのプロンプトを自動生成する。
テキストからテキストへの設定では、分類のためのLMのチューニングに有効なハードプロンプトを自動的に発見できることが示される。
論文 参考訳(メタデータ) (2023-02-07T18:40:18Z) - Prompt-Learning for Short Text Classification [30.53216712864025]
短文では、極端に短い長さ、特徴の空間性、高いあいまいさは、分類タスクに大きな課題をもたらす。
本稿では,知識拡張に基づく素早い学習を生かした簡易な短文分類手法を提案する。
論文 参考訳(メタデータ) (2022-02-23T08:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。