論文の概要: Tell me what you see: A zero-shot action recognition method based on
natural language descriptions
- arxiv url: http://arxiv.org/abs/2112.09976v1
- Date: Sat, 18 Dec 2021 17:44:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 16:37:19.500517
- Title: Tell me what you see: A zero-shot action recognition method based on
natural language descriptions
- Title(参考訳): 何が見えるか:自然言語記述に基づくゼロショット行動認識法
- Authors: Valter Estevam and Rayson Laroca and David Menotti and Helio Pedrini
- Abstract要約: 本稿では,観察者と呼ばれるビデオキャプションモデルが,異なる補完的な記述文を提供する方法を提案する。
ZSARでは、深い特徴ではなく記述文で動画を表現できることが証明され、ドメイン適応の問題が自然に軽減される。
複数のテキストデータセット上でパラフレージングタスクで事前訓練されたBERTベースの埋め込みを用いた共有意味空間を構築する。
- 参考スコア(独自算出の注目度): 2.022555840231001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, several approaches have explored the detection and classification
of objects in videos to perform Zero-Shot Action Recognition with remarkable
results. In these methods, class-object relationships are used to associate
visual patterns with the semantic side information because these relationships
also tend to appear in texts. Therefore, word vector methods would reflect them
in their latent representations. Inspired by these methods and by video
captioning's ability to describe events not only with a set of objects but with
contextual information, we propose a method in which video captioning models,
called observers, provide different and complementary descriptive sentences. We
demonstrate that representing videos with descriptive sentences instead of deep
features, in ZSAR, is viable and naturally alleviates the domain adaptation
problem, as we reached state-of-the-art (SOTA) performance on the UCF101
dataset and competitive performance on HMDB51 without their training sets. We
also demonstrate that word vectors are unsuitable for building the semantic
embedding space of our descriptions. Thus, we propose to represent the classes
with sentences extracted from documents acquired with search engines on the
Internet, without any human evaluation on the quality of descriptions. Lastly,
we build a shared semantic space employing BERT-based embedders pre-trained in
the paraphrasing task on multiple text datasets. We show that this pre-training
is essential for bridging the semantic gap. The projection onto this space is
straightforward for both types of information, visual and semantic, because
they are sentences, enabling the classification with nearest neighbour rule in
this shared space. Our code is available at
https://github.com/valterlej/zsarcap.
- Abstract(参考訳): 近年,映像中の物体の検出と分類によるゼロショット動作認識手法がいくつか研究されている。
これらの方法において、クラス-オブジェクト関係は、テキストにも現れる傾向があるため、視覚パターンと意味的な側面情報を関連付けるために使用される。
したがって、単語ベクトル法はそれらの潜在表現を反映する。
これらの手法に触発され,映像キャプションがオブジェクトの集合だけでなく文脈情報も記述する能力によって,観察者と呼ばれる映像キャプションモデルが,異なる補完的な記述文を提供する方法を提案する。
我々は,深い特徴ではなく記述文で動画を表現することで,UCF101データセットの最先端(SOTA)性能とHMDB51の競合性能をトレーニングセットなしで実現し,ドメイン適応問題を自然に軽減できることを実証した。
また、単語ベクトルは記述の意味的埋め込み空間を構築するのに不適当であることを示す。
そこで本稿では,インターネット上で検索エンジンが取得した文書から抽出した文を,記述の質に関する人間による評価なしに表現する手法を提案する。
最後に、複数のテキストデータセット上のパラフレーズ処理タスクで事前訓練されたBERTベースの埋め込みを用いて、共有セマンティックスペースを構築する。
この事前学習は意味的ギャップを埋めるのに不可欠である。
この空間への射影は、それらが文であるため、視覚的および意味的な情報の種類の両方にとって単純であり、この共有空間に最も近い隣り合う規則による分類を可能にする。
私たちのコードはhttps://github.com/valterlej/zsarcapで利用可能です。
関連論文リスト
- An Evaluation of Large Pre-Trained Models for Gesture Recognition using Synthetic Videos [32.257816070522885]
本研究では,大規模な事前学習モデルを用いた映像に基づくジェスチャー認識における合成データの利用の可能性を検討する。
我々は,k-nearest近辺分類に使用する特徴を抽出するために,最先端のビデオエンコーダを用いている。
その結果, 実検動画の分類精度は, 比較的少数の実検動画に比べて有意に低いことがわかった。
論文 参考訳(メタデータ) (2024-10-03T02:31:14Z) - Reasoning over the Behaviour of Objects in Video-Clips for Adverb-Type Recognition [54.938128496934695]
本稿では,ビデオクリップから抽出したオブジェクトの振る舞いを理由として,クリップの対応する副詞型を認識するための新しいフレームワークを提案する。
具体的には、生のビデオクリップから人間の解釈可能な物体の挙動を抽出する新しいパイプラインを提案する。
生のビデオクリップから抽出したオブジェクト-振る舞い-ファクトのデータセットを2つリリースする。
論文 参考訳(メタデータ) (2023-07-09T09:04:26Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - Simplifying Open-Set Video Domain Adaptation with Contrastive Learning [16.72734794723157]
ラベル付きデータセットから非ラベル付きデータセットに予測モデルを適用するために、教師なしのビデオドメイン適応手法が提案されている。
我々は、OUVDA(Open-set Video Domain adapt)と呼ばれるより現実的なシナリオに対処し、ターゲットデータセットはソースと共有されていない"未知"セマンティックカテゴリを含む。
本稿では,ビデオデータ中の時間情報を自由に利用することで,特徴空間をよりよくクラスタ化できるビデオ指向の時間的コントラスト損失を提案する。
論文 参考訳(メタデータ) (2023-01-09T13:16:50Z) - Learning Using Privileged Information for Zero-Shot Action Recognition [15.9032110752123]
本稿では,オブジェクトのセマンティクスを特権情報として利用し,セマンティクスのギャップを狭める手法を提案する。
オリンピック・スポーツ、HMDB51、UCF101データセットの実験では、提案手法が最先端の手法よりも大きなマージンで優れていることが示されている。
論文 参考訳(メタデータ) (2022-06-17T08:46:09Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。