論文の概要: ATPrompt: Textual Prompt Learning with Embedded Attributes
- arxiv url: http://arxiv.org/abs/2412.09442v1
- Date: Thu, 12 Dec 2024 16:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:18.958304
- Title: ATPrompt: Textual Prompt Learning with Embedded Attributes
- Title(参考訳): ATPrompt: 組み込み属性によるテキストプロンプト学習
- Authors: Zheng Li, Yibing Song, Penghai Zhao, Ming-Ming Cheng, Xiang Li, Jian Yang,
- Abstract要約: 本稿では,ATPrompt という名前の視覚言語モデルに対する属性埋め込み型テキスト・プロンプト学習手法を提案する。
テキストプロンプトをカテゴリ中心の形式から属性-カテゴリハイブリッド形式に変換する。
使いやすいプラグイン技術として、ATPromptは既存のプロンプトフォーマットをシームレスに置き換えることができる。
- 参考スコア(独自算出の注目度): 73.1352833091256
- License:
- Abstract: Textual-based prompt learning methods primarily employ multiple learnable soft prompts and hard class tokens in a cascading manner as text prompt inputs, aiming to align image and text (category) spaces for downstream tasks. However, current training is restricted to aligning images with predefined known categories and cannot be associated with unknown categories. In this work, we propose utilizing universal attributes as a bridge to enhance the alignment between images and unknown categories. Specifically, we introduce an Attribute-embedded Textual Prompt learning method for vision-language models, named ATPrompt. This approach expands the learning space of soft prompts from the original one-dimensional category level into the multi-dimensional attribute level by incorporating multiple universal attribute tokens into the learnable soft prompts. Through this modification, we transform the text prompt from a category-centric form to an attribute-category hybrid form. To finalize the attributes for downstream tasks, we propose a differentiable attribute search method that learns to identify representative and suitable attributes from a candidate pool summarized by a large language model. As an easy-to-use plug-in technique, ATPrompt can seamlessly replace the existing prompt format of textual-based methods, offering general improvements at a negligible computational cost. Extensive experiments on 11 datasets demonstrate the effectiveness of our method.
- Abstract(参考訳): テキストベースのプロンプト学習手法は、主に複数の学習可能なソフトプロンプトとハードクラストークンをテキストプロンプト入力としてカスケード的に使用し、下流タスクのために画像とテキスト(カテゴリ)空間を整列させることを目的としている。
しかし、現在のトレーニングは、事前に定義された既知のカテゴリと画像の整合に制限されており、未知のカテゴリに関連付けることはできない。
本研究では,画像と未知のカテゴリのアライメントを高めるために,ユニバーサル属性をブリッジとして活用することを提案する。
具体的には,ATPrompt という名前の視覚言語モデルに対して,属性埋め込み型テキスト・プロンプト学習手法を提案する。
このアプローチは、複数の普遍属性トークンを学習可能なソフトプロンプトに組み込むことで、元の1次元カテゴリレベルから多次元属性レベルへのソフトプロンプトの学習空間を拡大する。
この修正により、テキストプロンプトをカテゴリ中心の形式から属性-カテゴリハイブリッド形式に変換する。
下流タスクの属性を確定するために,大言語モデルで要約された候補プールから代表属性と適切な属性を識別する識別可能な属性探索法を提案する。
簡単に使えるプラグイン技術として、ATPromptは既存のテキストベースのメソッドのプロンプトフォーマットをシームレスに置き換えることができる。
11個のデータセットに対する大規模な実験により,本手法の有効性が示された。
関連論文リスト
- Descriminative-Generative Custom Tokens for Vision-Language Models [101.40245125955306]
本稿では,視覚言語モデル(VLM)における新しい概念を表現するためのカスタムトークンの学習の可能性について検討する。
本研究の目的は,識別的タスクと生成的タスクの両方に有効なトークンを学習し,単語をうまく合成して新しい入力クエリを構築することである。
論文 参考訳(メタデータ) (2025-02-17T18:13:42Z) - From Open-Vocabulary to Vocabulary-Free Semantic Segmentation [78.62232202171919]
オープン語彙セマンティックセグメンテーションにより、モデルはトレーニングデータ以外の新しいオブジェクトカテゴリを識別できる。
現在のアプローチは依然として入力として手動で指定されたクラス名に依存しており、現実世界のアプリケーションに固有のボトルネックを生み出している。
この研究は、定義済みのクラス語彙を必要としない、語彙自由セマンティックパイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T15:17:08Z) - Tree of Attributes Prompt Learning for Vision-Language Models [27.64685205305313]
本稿では,各カテゴリに「概念-属性-記述」構造を持つ属性のツリーを生成する属性学習(TAP)を提案する。
非構造化記述の集合で単にカテゴリ名を拡大する既存の方法とは異なり、本手法は基本的に構造化知識グラフを蒸留する。
提案手法では,テキストと視覚のプロンプトを導入し,対応する視覚属性を明示的に学習し,ドメインの専門家として効果的に機能する。
論文 参考訳(メタデータ) (2024-10-15T02:37:39Z) - Mixture of Prompt Learning for Vision Language Models [12.828490399811376]
ルーティングモジュールを組み込んだソフトプロンプト学習手法の混合を提案する。
このモジュールはデータセットのさまざまなスタイルをキャプチャし、インスタンス毎に最も適切なプロンプトを動的に選択することができる。
また、意味的にグループ化されたテキストレベルの監視を実装し、各ソフトプロンプトを、そのグループから手動で設計されたテンプレートのトークン埋め込みで初期化する。
論文 参考訳(メタデータ) (2024-09-18T14:25:02Z) - CoAPT: Context Attribute words for Prompt Tuning [5.811993982861212]
少数/ゼロショット画像分類のための新しいプロンプトチューニング手法であるCoAPTを提案する。
中心となる動機は、属性は特定の概念に関する豊富な情報を持つ記述的な単語であるということである。
CoAPTは単語を学習可能なプロンプトチューニングに追加のプロンプトとして統合し、既存の様々なプロンプトチューニング手法に簡単に組み込むことができる。
論文 参考訳(メタデータ) (2024-07-18T08:58:01Z) - Open-Vocabulary Temporal Action Localization using Multimodal Guidance [67.09635853019005]
OVTALでは、すべてのカテゴリのトレーニングデータを明示的にキュレートすることなく、任意のアクションカテゴリをビデオで認識することができる。
この柔軟性は、トレーニング中に見られるアクションカテゴリだけでなく、推論で指定された新しいカテゴリも認識しなければならないため、大きな課題を引き起こす。
我々は,ActionFormerを拡張した新しいオープン語彙フレームワークであるOVFormerを紹介した。
論文 参考訳(メタデータ) (2024-06-21T18:00:05Z) - TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model [78.77544632773404]
本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。
TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T03:59:23Z) - Multi-Prompt with Depth Partitioned Cross-Modal Learning [25.239388488952375]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。
本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。
我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-10T14:54:29Z) - Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt
Tuning and Discovery [55.905769757007185]
本稿では,効率的な勾配に基づく最適化により,ハードテキストのプロンプトを頑健に最適化する手法について述べる。
本手法は,テキスト・ツー・イメージ・アプリケーションとテキスト・ツー・テキストアプリケーションの両方に対して,ハードテキスト・ベースのプロンプトを自動生成する。
テキストからテキストへの設定では、分類のためのLMのチューニングに有効なハードプロンプトを自動的に発見できることが示される。
論文 参考訳(メタデータ) (2023-02-07T18:40:18Z) - Prompt-Learning for Short Text Classification [30.53216712864025]
短文では、極端に短い長さ、特徴の空間性、高いあいまいさは、分類タスクに大きな課題をもたらす。
本稿では,知識拡張に基づく素早い学習を生かした簡易な短文分類手法を提案する。
論文 参考訳(メタデータ) (2022-02-23T08:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。