論文の概要: TeST-V: TEst-time Support-set Tuning for Zero-shot Video Classification
- arxiv url: http://arxiv.org/abs/2502.00426v1
- Date: Sat, 01 Feb 2025 13:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:44.380178
- Title: TeST-V: TEst-time Support-set Tuning for Zero-shot Video Classification
- Title(参考訳): TeST-V:ゼロショットビデオ分類のためのTEST-time Support-set Tuning
- Authors: Rui Yan, Jin Wang, Hongyu Qu, Xiaoyu Du, Dong Zhang, Jinhui Tang, Tieniu Tan,
- Abstract要約: 我々は、ゼロショットビデオ分類(TEST-V)のためのTEst-time Support-set Tuningという新しいフレームワークを提案する。
サポートセットを複数のプロンプト(Multi-prompting Support-set Dilation, MSD)で拡張した後、学習可能なウェイトを通じてサポートセットを侵食し、キーキューをマイニングする。
$textbfTEST-V$は、4つのベンチマークで最先端の結果を達成し、サポートセットのディレーションとエロージョンに優れた解釈性を持つ。
- 参考スコア(独自算出の注目度): 68.27769245188009
- License:
- Abstract: Recently, adapting Vision Language Models (VLMs) to zero-shot visual classification by tuning class embedding with a few prompts (Test-time Prompt Tuning, TPT) or replacing class names with generated visual samples (support-set) has shown promising results. However, TPT cannot avoid the semantic gap between modalities while the support-set cannot be tuned. To this end, we draw on each other's strengths and propose a novel framework namely TEst-time Support-set Tuning for zero-shot Video Classification (TEST-V). It first dilates the support-set with multiple prompts (Multi-prompting Support-set Dilation, MSD) and then erodes the support-set via learnable weights to mine key cues dynamically (Temporal-aware Support-set Erosion, TSE). Specifically, i) MSD expands the support samples for each class based on multiple prompts enquired from LLMs to enrich the diversity of the support-set. ii) TSE tunes the support-set with factorized learnable weights according to the temporal prediction consistency in a self-supervised manner to dig pivotal supporting cues for each class. $\textbf{TEST-V}$ achieves state-of-the-art results across four benchmarks and has good interpretability for the support-set dilation and erosion.
- Abstract(参考訳): 近年,視覚言語モデル (VLM) をゼロショット視覚分類に適用する手法として,いくつかのプロンプト (Test-time Prompt Tuning, TPT) でクラス埋め込みをチューニングしたり,クラス名を生成したビジュアルサンプル(サポートセット)で置き換えたりすることで,有望な結果を示した。
しかし、TPTはモダリティ間の意味的ギャップを回避できないが、サポートセットは調整できない。
この目的のために,ゼロショットビデオ分類(TEST-V)のためのTEst-time Support-set Tuningという新しいフレームワークを提案する。
サポートセットを複数のプロンプト(Multi-prompting Support-set Dilation, MSD)で拡張し、学習可能なウェイトを通じてサポートセットを侵食してキーキューを動的にマイニングする(Temporal-aware Support-set Erosion, TSE)。
具体的には
1MSDは、LLMから取得した複数のプロンプトに基づいて、各クラスのサポートサンプルを拡張して、サポートセットの多様性を充実させる。
二 TSEは、時間的予測の整合性に応じて、時間的に学習可能な重み付きサポートセットを自己監督的に調整し、各クラスに対して重要な支援手がかりを掘り下げる。
$\textbf{TEST-V}$は、4つのベンチマークで最先端の結果を達成する。
関連論文リスト
- Multiple Consistency-guided Test-Time Adaptation for Contrastive Audio-Language Models with Unlabeled Audio [4.150189195092493]
本稿では,アノテートラベルのない事前学習型音声言語モデルの試験時間適応手法を提案する。
提案手法を適用すれば平均0ショット性能が4.41%(最大7.50%)向上する。
論文 参考訳(メタデータ) (2024-12-23T05:53:52Z) - MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning [11.717352903130411]
多重インスタンス学習(MIL)は、スライド画像全体(WSI)の弱い教師付き分類のための標準パラダイムとなっている。
トレーニングデータの欠如と稀な疾患の存在は,これらの方法に重大な課題をもたらす。
本稿では、FSWCタスクのためのマルチスケールおよびコンテキスト中心のPrompt Tuning(MSCPT)手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:25:51Z) - DETA: Denoised Task Adaptation for Few-Shot Learning [135.96805271128645]
数ショット学習におけるテスト時間タスク適応は、訓練済みのタスク非依存モデルに適応してタスク固有の知識を取得することを目的としている。
少数のサンプルしか得られないため、支持試料からのイメージノイズ(Xノイズ)またはラベルノイズ(Yノイズ)の悪影響を著しく増幅することができる。
Denoized Task Adaptation (DETA) は、既存のタスク適応アプローチに対して、最初に統合された画像とラベルをデノベートするフレームワークである。
論文 参考訳(メタデータ) (2023-03-11T05:23:20Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Few-shot Semantic Segmentation with Support-induced Graph Convolutional
Network [28.46908214462594]
Few-shot semantic segmentation (FSS) は、いくつかの注釈付きサンプルで新しいオブジェクトのセグメンテーションを実現することを目的としている。
本稿では,クエリ画像中の遅延コンテキスト構造を明示的に抽出するために,Support-induced Graph Convolutional Network (SiGCN)を提案する。
論文 参考訳(メタデータ) (2023-01-09T08:00:01Z) - STT: Soft Template Tuning for Few-Shot Adaptation [72.46535261444151]
我々は、Soft Template Tuning (STT)と呼ばれる新しいプロンプトチューニングフレームワークを提案する。
STTは手動と自動プロンプトを組み合わせて、下流の分類タスクをマスキング言語モデリングタスクとして扱う。
さらに、感情分類タスクにおいて、時間とリソースを消費する微調整方法よりも優れています。
論文 参考訳(メタデータ) (2022-07-18T07:07:22Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。