論文の概要: Global Semantic Descriptors for Zero-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2209.12061v1
- Date: Sat, 24 Sep 2022 18:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:05:06.372607
- Title: Global Semantic Descriptors for Zero-Shot Action Recognition
- Title(参考訳): ゼロショット動作認識のためのグローバルセマンティック記述子
- Authors: Valter Estevam, Rayson Laroca, Helio Pedrini, David Menotti
- Abstract要約: 本研究では,行動オブジェクトと行動記述文の関係に基づく新しいZSAR手法を提案する。
本研究では,人間のラベル付けを伴わない文の集合のみに基づいて,アクションクラスの集合に対して確率を推定する方法を示す。
我々の結果はKinetics-400データセットの最先端技術であり、UCF-101と競合する。
- 参考スコア(独自算出の注目度): 2.0206441617430695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of Zero-shot Action Recognition (ZSAR) methods is intrinsically
related to the nature of semantic side information used to transfer knowledge,
although this aspect has not been primarily investigated in the literature.
This work introduces a new ZSAR method based on the relationships of
actions-objects and actions-descriptive sentences. We demonstrate that
representing all object classes using descriptive sentences generates an
accurate object-action affinity estimation when a paraphrase estimation method
is used as an embedder. We also show how to estimate probabilities over the set
of action classes based only on a set of sentences without hard human labeling.
In our method, the probabilities from these two global classifiers (i.e., which
use features computed over the entire video) are combined, producing an
efficient transfer knowledge model for action classification. Our results are
state-of-the-art in the Kinetics-400 dataset and are competitive on UCF-101
under the ZSAR evaluation. Our code is available at
https://github.com/valterlej/objsentzsar
- Abstract(参考訳): Zero-shot Action Recognition (ZSAR)法の成功は、知識の伝達に使用される意味的側情報の性質と本質的に関係している。
本研究では,行動オブジェクトと行動記述文の関係に基づく新しいZSAR手法を提案する。
記述文を用いてすべてのオブジェクトクラスを表現することで,パラフレーゼ推定法を埋め込み器として使用する場合,正確なオブジェクト・アクション親和性推定が得られることを示す。
また, 厳密なラベル付けを伴わない文の集合のみに基づいて, 行動クラスに対して確率を推定する方法を示す。
本手法では,この2つの大域的分類器(ビデオ全体から計算した特徴を利用する)の確率を組み合わせ,行動分類のための効率的な伝達知識モデルを作成する。
我々の結果はKinetics-400データセットの最先端技術であり、ZSAR評価の下ではUCF-101と競合する。
私たちのコードはhttps://github.com/valterlej/objsentzsarで利用可能です。
関連論文リスト
- Description Boosting for Zero-Shot Entity and Relation Classification [5.8959034854546815]
我々は、ゼロショット学習(ZSL)手法が、エンティティ(または関係)のテキスト記述に敏感であることを示す。
本稿では、初期記述のバリエーションを生成するための戦略と、記述拡張によるゼロショットモデルの予測を向上するアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T12:09:44Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based
Action Recognition [32.291333054680855]
一般化ゼロショットスケルトンに基づく行動認識(GZSSAR)は、コンピュータビジョンコミュニティにおいて新たな課題である。
GZSSARの性能向上のためのマルチセマンティック・フュージョン(MSF)モデルを提案する。
論文 参考訳(メタデータ) (2023-09-18T09:00:25Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - Task-Specific Embeddings for Ante-Hoc Explainable Text Classification [6.671252951387647]
テキストのタスク固有の埋め込みを学習する学習目標を提案する。
提案する目的は,同一のクラスラベルを共有するすべてのテキストが近接しているように埋め込みを学習することである。
本研究は, 総合的な分類精度において, アンテホックな説明可能性と漸進的な学習の利点が無コストで得られることを示す広範囲な実験である。
論文 参考訳(メタデータ) (2022-11-30T19:56:25Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Tell me what you see: A zero-shot action recognition method based on
natural language descriptions [3.136605193634262]
ビデオから意味情報を抽出するビデオキャプション手法を提案する。
私たちの知る限りでは、ビデオとラベルの両方を記述文で表現するのはこれが初めてです。
複数のテキストデータセット上でパラフレージングタスクで事前訓練されたBERTベースの埋め込みを用いた共有意味空間を構築する。
論文 参考訳(メタデータ) (2021-12-18T17:44:07Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot
Action Recognition [33.23662792742078]
ゼロショット動作認識のための2段階のディープニューラルネットワークを提案する。
サンプリング段階では,授業の動作特徴と単語ベクトルによって訓練されたGAN(Generative Adversarial Network)を利用する。
分類段階において、アクションクラスの単語ベクトルと関連するオブジェクトの関係に基づいて知識グラフを構築する。
論文 参考訳(メタデータ) (2021-05-25T09:34:42Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z) - Latent Embedding Feedback and Discriminative Features for Zero-Shot
Classification [139.44681304276]
ゼロショット学習は、トレーニング中にデータが利用できない、見えないカテゴリを分類することを目的としている。
Generative Adrial Networksは、クラス固有のセマンティック埋め込みを利用して、目に見えないクラス機能を合成する。
我々は,ゼロショット学習のすべての段階において,意味的一貫性を強制することを提案する。
論文 参考訳(メタデータ) (2020-03-17T17:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。