論文の概要: Tell me what you see: A zero-shot action recognition method based on
natural language descriptions
- arxiv url: http://arxiv.org/abs/2112.09976v2
- Date: Mon, 11 Sep 2023 17:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 23:41:06.667067
- Title: Tell me what you see: A zero-shot action recognition method based on
natural language descriptions
- Title(参考訳): 何が見えるか:自然言語記述に基づくゼロショット行動認識法
- Authors: Valter Estevam and Rayson Laroca and David Menotti and Helio Pedrini
- Abstract要約: ビデオから意味情報を抽出するビデオキャプション手法を提案する。
私たちの知る限りでは、ビデオとラベルの両方を記述文で表現するのはこれが初めてです。
複数のテキストデータセット上でパラフレージングタスクで事前訓練されたBERTベースの埋め込みを用いた共有意味空間を構築する。
- 参考スコア(独自算出の注目度): 3.136605193634262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel approach to Zero-Shot Action Recognition. Recent
works have explored the detection and classification of objects to obtain
semantic information from videos with remarkable performance. Inspired by them,
we propose using video captioning methods to extract semantic information about
objects, scenes, humans, and their relationships. To the best of our knowledge,
this is the first work to represent both videos and labels with descriptive
sentences. More specifically, we represent videos using sentences generated via
video captioning methods and classes using sentences extracted from documents
acquired through search engines on the Internet. Using these representations,
we build a shared semantic space employing BERT-based embedders pre-trained in
the paraphrasing task on multiple text datasets. The projection of both visual
and semantic information onto this space is straightforward, as they are
sentences, enabling classification using the nearest neighbor rule. We
demonstrate that representing videos and labels with sentences alleviates the
domain adaptation problem. Additionally, we show that word vectors are
unsuitable for building the semantic embedding space of our descriptions. Our
method outperforms the state-of-the-art performance on the UCF101 dataset by
3.3 p.p. in accuracy under the TruZe protocol and achieves competitive results
on both the UCF101 and HMDB51 datasets under the conventional protocol (0/50\%
- training/testing split). Our code is available at
https://github.com/valterlej/zsarcap.
- Abstract(参考訳): 本稿では,ゼロショット動作認識に対する新しいアプローチを提案する。
近年,目覚ましい性能を持つ映像から意味情報を得るための物体の検出と分類が研究されている。
そこで本研究では,映像キャプション手法を用いてオブジェクト,シーン,人間,それらの関係に関する意味情報を抽出する。
私たちの知る限りでは、ビデオとラベルの両方を記述文で表現するのはこれが初めてです。
より具体的には,インターネット上で検索された文書から抽出した文を用いて,ビデオキャプション手法やクラスを用いて生成された文を用いてビデオを表現する。
これらの表現を用いて、複数のテキストデータセットのパラフレーズ処理タスクで事前訓練されたBERTベースの埋め込みを用いた共有意味空間を構築する。
視覚情報と意味情報の双方をこの空間に投影することは、それらが文であるため簡単であり、最も近い隣の規則による分類を可能にする。
文によるビデオやラベルの表現がドメイン適応問題を軽減することを実証する。
さらに、単語ベクトルは記述の意味的埋め込み空間を構築するのに不適当であることを示す。
提案手法は,UCF101データセットの精度を3.3 pp,TruZeプロトコルでは3.3 pp向上し,従来のプロトコルではUCF101データセットとHMDB51データセットの両方(0/50\% - トレーニング/テストスプリット)の競合結果が得られる。
私たちのコードはhttps://github.com/valterlej/zsarcapで利用可能です。
関連論文リスト
- An Evaluation of Large Pre-Trained Models for Gesture Recognition using Synthetic Videos [32.257816070522885]
本研究では,大規模な事前学習モデルを用いた映像に基づくジェスチャー認識における合成データの利用の可能性を検討する。
我々は,k-nearest近辺分類に使用する特徴を抽出するために,最先端のビデオエンコーダを用いている。
その結果, 実検動画の分類精度は, 比較的少数の実検動画に比べて有意に低いことがわかった。
論文 参考訳(メタデータ) (2024-10-03T02:31:14Z) - Reasoning over the Behaviour of Objects in Video-Clips for Adverb-Type Recognition [54.938128496934695]
本稿では,ビデオクリップから抽出したオブジェクトの振る舞いを理由として,クリップの対応する副詞型を認識するための新しいフレームワークを提案する。
具体的には、生のビデオクリップから人間の解釈可能な物体の挙動を抽出する新しいパイプラインを提案する。
生のビデオクリップから抽出したオブジェクト-振る舞い-ファクトのデータセットを2つリリースする。
論文 参考訳(メタデータ) (2023-07-09T09:04:26Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - Simplifying Open-Set Video Domain Adaptation with Contrastive Learning [16.72734794723157]
ラベル付きデータセットから非ラベル付きデータセットに予測モデルを適用するために、教師なしのビデオドメイン適応手法が提案されている。
我々は、OUVDA(Open-set Video Domain adapt)と呼ばれるより現実的なシナリオに対処し、ターゲットデータセットはソースと共有されていない"未知"セマンティックカテゴリを含む。
本稿では,ビデオデータ中の時間情報を自由に利用することで,特徴空間をよりよくクラスタ化できるビデオ指向の時間的コントラスト損失を提案する。
論文 参考訳(メタデータ) (2023-01-09T13:16:50Z) - Learning Using Privileged Information for Zero-Shot Action Recognition [15.9032110752123]
本稿では,オブジェクトのセマンティクスを特権情報として利用し,セマンティクスのギャップを狭める手法を提案する。
オリンピック・スポーツ、HMDB51、UCF101データセットの実験では、提案手法が最先端の手法よりも大きなマージンで優れていることが示されている。
論文 参考訳(メタデータ) (2022-06-17T08:46:09Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。