論文の概要: Cross-modal Representation Learning for Zero-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2205.01657v1
- Date: Tue, 3 May 2022 17:39:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 14:21:56.736571
- Title: Cross-modal Representation Learning for Zero-shot Action Recognition
- Title(参考訳): ゼロショット行動認識のためのクロスモーダル表現学習
- Authors: Chung-Ching Lin, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu
- Abstract要約: 我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
- 参考スコア(独自算出の注目度): 67.57406812235767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a cross-modal Transformer-based framework, which jointly encodes
video data and text labels for zero-shot action recognition (ZSAR). Our model
employs a conceptually new pipeline by which visual representations are learned
in conjunction with visual-semantic associations in an end-to-end manner. The
model design provides a natural mechanism for visual and semantic
representations to be learned in a shared knowledge space, whereby it
encourages the learned visual embedding to be discriminative and more
semantically consistent. In zero-shot inference, we devise a simple semantic
transfer scheme that embeds semantic relatedness information between seen and
unseen classes to composite unseen visual prototypes. Accordingly, the
discriminative features in the visual structure could be preserved and
exploited to alleviate the typical zero-shot issues of information loss,
semantic gap, and the hubness problem. Under a rigorous zero-shot setting of
not pre-training on additional datasets, the experiment results show our model
considerably improves upon the state of the arts in ZSAR, reaching encouraging
top-1 accuracy on UCF101, HMDB51, and ActivityNet benchmark datasets. Code will
be made available.
- Abstract(参考訳): 本稿では,ゼロショット動作認識(zsar)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマティブフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
モデル設計は、視覚的および意味的表現を共有知識空間で学習するための自然なメカニズムを提供する。
ゼロショット推論では,目に見えるクラスと目に見えないクラス間の意味的関連情報を複合的な視覚プロトタイプに組み込む単純な意味伝達スキームを考案する。
したがって、視覚構造における識別的特徴を保存し、情報損失、意味ギャップ、ハブネス問題の典型的なゼロショット問題を軽減するために活用することができる。
追加データセットの事前トレーニングを行わない厳密なゼロショット設定の下で,実験結果から,本モデルはzsarのarts状態において大幅に改善され,utf101,hmdb51, activitynetベンチマークデータセットにおいてtop-1精度が高まることが示された。
コードは利用可能になる。
関連論文リスト
- Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Transductive Zero-Shot Learning by Decoupled Feature Generation [30.664199050468472]
本稿では,未確認のクラスからの未表示の視覚データを利用できるトランスダクティブ・セッティングに着目する。
本稿では,現実的な視覚的特徴を生成し,意味的属性を視覚的手がかりに変換するタスクを分離することを提案する。
本研究は,提案手法の有効性を解明する上で,関連する最先端技術に対する優位性を実証するための詳細なアブレーション研究である。
論文 参考訳(メタデータ) (2021-02-05T16:17:52Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z) - Learning the Redundancy-free Features for Generalized Zero-Shot Object
Recognition [28.08885682748527]
ゼロショットオブジェクト認識は、意味的関連カテゴリ間でオブジェクト認識能力を伝達することを目的としている。
本稿では,一般化ゼロショット学習のための冗長性のない特徴を学習する。
その結果,我々の冗長性のない特徴に基づく一般化ゼロショット学習(RFF-GZSL)アプローチは,最先端技術と比較して競争力のある結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-16T05:53:25Z) - Generative Model-driven Structure Aligning Discriminative Embeddings for
Transductive Zero-shot Learning [21.181715602603436]
本稿では、潜在空間における視覚的および意味的なデータを整列する投影関数を学習するためのニューラルネットワークに基づくモデルを提案する。
AWA1, AWA2, CUB, SUN, FLOなどの標準ベンチマークデータセットにおいて, 優れた性能を示す。
また,ラベル付きデータ構造が極めて少ない場合においても,モデルの有効性を示す。
論文 参考訳(メタデータ) (2020-05-09T18:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。