論文の概要: Learning Using Privileged Information for Zero-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2206.08632v1
- Date: Fri, 17 Jun 2022 08:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 13:54:53.902154
- Title: Learning Using Privileged Information for Zero-Shot Action Recognition
- Title(参考訳): ゼロショット動作認識のための特権情報を用いた学習
- Authors: Zhiyi Gao, Wanqing Li, Zihui Guo, Bin Yu and Yonghong Hou
- Abstract要約: 本稿では,オブジェクトのセマンティクスを特権情報として利用し,セマンティクスのギャップを狭める手法を提案する。
オリンピック・スポーツ、HMDB51、UCF101データセットの実験では、提案手法が最先端の手法よりも大きなマージンで優れていることが示されている。
- 参考スコア(独自算出の注目度): 15.9032110752123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-Shot Action Recognition (ZSAR) aims to recognize video actions that have
never been seen during training. Most existing methods assume a shared semantic
space between seen and unseen actions and intend to directly learn a mapping
from a visual space to the semantic space. This approach has been challenged by
the semantic gap between the visual space and semantic space. This paper
presents a novel method that uses object semantics as privileged information to
narrow the semantic gap and, hence, effectively, assist the learning. In
particular, a simple hallucination network is proposed to implicitly extract
object semantics during testing without explicitly extracting objects and a
cross-attention module is developed to augment visual feature with the object
semantics. Experiments on the Olympic Sports, HMDB51 and UCF101 datasets have
shown that the proposed method outperforms the state-of-the-art methods by a
large margin.
- Abstract(参考訳): Zero-Shot Action Recognition (ZSAR)は、訓練中に見たことのないビデオアクションを認識することを目的としている。
既存のほとんどの手法は、目に見えるアクションと目に見えないアクションの間に共有の意味空間を仮定し、視覚空間から意味空間へのマッピングを直接学習する。
このアプローチは、視覚空間と意味空間の間の意味的ギャップによって挑戦されている。
本稿では,オブジェクト意味論を特権情報として利用し,意味的ギャップを狭くし,効果的な学習を支援する新しい手法を提案する。
特に、オブジェクトを明示的に抽出せずにテスト中にオブジェクトセマンティクスを暗黙的に抽出するシンプルな幻覚ネットワークを提案し、オブジェクトセマンティクスで視覚的特徴を増強するクロスアテンションモジュールを開発した。
オリンピック競技, hmdb51, ucf101のデータセットを用いた実験では, 提案手法が最先端の手法を大差で上回っていることが示されている。
関連論文リスト
- Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - Semantic-guided spatial relation and object co-occurrence modeling for
indoor scene recognition [13.367535370705395]
屋内シーン認識のための既存の文脈モデリング手法には2つの制限がある。
本研究では,意味的セグメンテーションに基づくオブジェクトの空間的関係と共起を同時にモデル化するSpaCoNetを提案する。
広範に使用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
論文 参考訳(メタデータ) (2023-05-22T03:04:22Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Learning Semantics for Visual Place Recognition through Multi-Scale
Attention [14.738954189759156]
本稿では,データの視覚的外観と意味的内容から,ロバストなグローバルな埋め込みを学習する最初のVPRアルゴリズムを提案する。
さまざまなシナリオの実験により、この新しいアプローチが検証され、最先端の手法に対するパフォーマンスが実証される。
論文 参考訳(メタデータ) (2022-01-24T14:13:12Z) - Tell me what you see: A zero-shot action recognition method based on
natural language descriptions [3.136605193634262]
ビデオから意味情報を抽出するビデオキャプション手法を提案する。
私たちの知る限りでは、ビデオとラベルの両方を記述文で表現するのはこれが初めてです。
複数のテキストデータセット上でパラフレージングタスクで事前訓練されたBERTベースの埋め込みを用いた共有意味空間を構築する。
論文 参考訳(メタデータ) (2021-12-18T17:44:07Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。