論文の概要: Few-shot Action Recognition with Captioning Foundation Models
- arxiv url: http://arxiv.org/abs/2310.10125v1
- Date: Mon, 16 Oct 2023 07:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 15:58:24.271311
- Title: Few-shot Action Recognition with Captioning Foundation Models
- Title(参考訳): キャプションファウンデーションモデルを用いたアクション認識
- Authors: Xiang Wang, Shiwei Zhang, Hangjie Yuan, Yingya Zhang, Changxin Gao,
Deli Zhao, Nong Sang
- Abstract要約: CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
- 参考スコア(独自算出の注目度): 61.40271046233581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transferring vision-language knowledge from pretrained multimodal foundation
models to various downstream tasks is a promising direction. However, most
current few-shot action recognition methods are still limited to a single
visual modality input due to the high cost of annotating additional textual
descriptions. In this paper, we develop an effective plug-and-play framework
called CapFSAR to exploit the knowledge of multimodal models without manually
annotating text. To be specific, we first utilize a captioning foundation model
(i.e., BLIP) to extract visual features and automatically generate associated
captions for input videos. Then, we apply a text encoder to the synthetic
captions to obtain representative text embeddings. Finally, a visual-text
aggregation module based on Transformer is further designed to incorporate
cross-modal spatio-temporal complementary information for reliable few-shot
matching. In this way, CapFSAR can benefit from powerful multimodal knowledge
of pretrained foundation models, yielding more comprehensive classification in
the low-shot regime. Extensive experiments on multiple standard few-shot
benchmarks demonstrate that the proposed CapFSAR performs favorably against
existing methods and achieves state-of-the-art performance. The code will be
made publicly available.
- Abstract(参考訳): 事前訓練されたマルチモーダル基礎モデルから様々な下流タスクへの視覚言語知識の移行は有望な方向である。
しかし、現時点の行動認識手法のほとんどは、追加のテキスト記述に注釈を付けるコストが高いため、単一の視覚モダリティ入力に制限されている。
本稿では,手動でアノテートすることなくマルチモーダルモデルの知識を活用するために,CapFSARと呼ばれる効果的なプラグアンドプレイフレームワークを開発する。
具体的には,まずキャプション基礎モデル(blip)を用いて視覚特徴を抽出し,入力映像に付随するキャプションを自動的に生成する。
次に,テキストエンコーダを合成キャプションに適用し,代表的なテキスト埋め込みを得る。
最後に,Transformerをベースとしたビジュアルテキストアグリゲーションモジュールは,信頼度の高いショットマッチングのために,モーダルな時空間補完情報を組み込むように設計されている。
このように、CapFSARは事前訓練された基礎モデルの強力なマルチモーダル知識の恩恵を受けることができ、低ショット方式のより包括的な分類が得られる。
複数の標準的な数ショットベンチマークでの大規模な実験により、提案したCapFSARは既存の手法に対して好適に動作し、最先端のパフォーマンスを達成することが示された。
コードは公開される予定だ。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - FLIER: Few-shot Language Image Models Embedded with Latent Representations [2.443383032451177]
画像認識のための潜在表現(FLIER)を組み込んだFew-shot Language Image Model。
まず、GPT-3からのテキスト入力で、安定拡散による画像とそれに対応する潜在表現を生成する。
潜在表現を「モデル理解可能なピクセル」として、2つの畳み込み層を持つ柔軟な畳み込みニューラルネットワークを導入し、潜り込みエンコーダとする。
論文 参考訳(メタデータ) (2024-10-10T06:27:46Z) - Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition [40.329190454146996]
MultimOdal PRototype-ENhanced Network (MORN)は、ラベルテキストの意味情報をマルチモーダル情報として利用してプロトタイプを強化する。
我々は4つの一般的な数発のアクション認識データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-12-09T14:24:39Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。