論文の概要: CEZSAR: A Contrastive Embedding Method for Zero-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2605.01165v1
- Date: Fri, 01 May 2026 23:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.620978
- Title: CEZSAR: A Contrastive Embedding Method for Zero-Shot Action Recognition
- Title(参考訳): CEZSAR:ゼロショット動作認識のためのコントラスト埋め込み法
- Authors: Valter Estevam, Rayson Laroca, Helio Pedrini, David Menotti,
- Abstract要約: コントラスト学習に基づくゼロショット行動認識(ZSAR)手法を提案する。
ZSARにはセマンティックギャップとドメインシフトという2つのよく知られた問題が残っている。
本稿では,ビデオと文を共同埋め込み空間にエンコードする新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 3.971295713554491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a novel Zero-Shot Action Recognition~(ZSAR) method based on contrastive learning. In ZSAR, we aim to classify examples from classes that were missing during training. Two well-known problems remain in ZSAR: the semantic gap and the domain shift. A semantic gap occurs because label representations come from the textual domain (i.e., language models) and must be associated with visual representations (i.e., CNNs, RNNs, transformer-based). This multimodal nature implies that the semantic properties of the two spaces are not identical. On the other hand, the domain shift arises from differences between the training and test sets and is inherent to ZSAR once the test set is unknown. One of the most promising methods to address both issues is learning joint embedding spaces. Therefore, we propose a new model that encodes videos and sentences in a joint embedding space, trained by aligning videos with their natural-language descriptions. We design an automatic negative sampling procedure to augment the training dataset and generate unpaired data, i.e., visual appearance and unrelated descriptions. Our results are state-of-the-art on the UCF-101 and Kinetics-400 datasets under several split configurations. Our code is available at https://github.com/valterlej/cezsar.
- Abstract(参考訳): コントラスト学習に基づくゼロショット行動認識(ZSAR)手法を提案する。
ZSARでは、トレーニング中に欠落していたクラスからサンプルを分類することを目的としている。
ZSARにはセマンティックギャップとドメインシフトという2つのよく知られた問題が残っている。
意味的なギャップは、ラベル表現がテキストドメイン(言語モデル)から生まれ、視覚表現(CNN、RNN、トランスフォーマーベース)と関連付けられなければならないためである。
このマルチモーダルな性質は、2つの空間の意味的性質が同一でないことを意味する。
一方、ドメインシフトはトレーニングセットとテストセットの違いから発生し、テストセットが不明なときにZSAR固有のものである。
両方の問題を解決する最も有望な方法の1つは、共同埋め込み空間の学習である。
そこで本稿では,ビデオと文を共同埋め込み空間にエンコードする新しいモデルを提案する。
我々は、トレーニングデータセットを増強し、視覚的外観や無関係な記述など、不適切なデータを生成するために、自動ネガティブサンプリング手順を設計する。
UCF-101 と Kinetics-400 のデータセットをいくつかの分割構成で解析した。
私たちのコードはhttps://github.com/valterlej/cezsar.comで公開されています。
関連論文リスト
- ZoRI: Towards Discriminative Zero-Shot Remote Sensing Instance Segmentation [23.40908829241552]
本稿では,訓練データに欠落した空中物体を特定することを目的とした,ゼロショットリモートセンシングインスタンスセグメンテーションという新しいタスクを提案する。
我々は,事前学習された視覚言語アライメントを維持するために,意味関連情報を分離する知識注入型適応戦略を導入する。
我々は,新しい実験プロトコルとベンチマークを構築し,ZoRIが最先端の性能を達成することを実証する広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T11:00:56Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Global Semantic Descriptors for Zero-Shot Action Recognition [2.0206441617430695]
本研究では,行動オブジェクトと行動記述文の関係に基づく新しいZSAR手法を提案する。
本研究では,人間のラベル付けを伴わない文の集合のみに基づいて,アクションクラスの集合に対して確率を推定する方法を示す。
我々の結果はKinetics-400データセットの最先端技術であり、UCF-101と競合する。
論文 参考訳(メタデータ) (2022-09-24T18:15:47Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Tell me what you see: A zero-shot action recognition method based on
natural language descriptions [3.136605193634262]
ビデオから意味情報を抽出するビデオキャプション手法を提案する。
私たちの知る限りでは、ビデオとラベルの両方を記述文で表現するのはこれが初めてです。
複数のテキストデータセット上でパラフレージングタスクで事前訓練されたBERTベースの埋め込みを用いた共有意味空間を構築する。
論文 参考訳(メタデータ) (2021-12-18T17:44:07Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - i-Mix: A Domain-Agnostic Strategy for Contrastive Representation
Learning [117.63815437385321]
対照的な表現学習を改善するために, 単純で効果的なドメインに依存しない正規化戦略i-Mixを提案する。
実験では、i-Mixはドメイン間の学習表現の質を一貫して改善することを示した。
論文 参考訳(メタデータ) (2020-10-17T23:32:26Z) - Information Bottleneck Constrained Latent Bidirectional Embedding for
Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。
視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。
本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文 参考訳(メタデータ) (2020-09-16T03:54:12Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。