論文の概要: Zero-Shot Activity Recognition with Videos
- arxiv url: http://arxiv.org/abs/2002.02265v1
- Date: Wed, 22 Jan 2020 16:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 17:47:02.769091
- Title: Zero-Shot Activity Recognition with Videos
- Title(参考訳): ビデオによるゼロショット活動認識
- Authors: Evin Pinar Ornek
- Abstract要約: 視覚的およびテキスト的多様体間の多モーダルな関節埋め込み空間を構築するための自動エンコーダモデルを提案する。
視覚面では,動作ビデオと最先端の3D畳み込み動作認識ネットワークを用いて特徴を抽出した。
テキスト側では、GloVeワードの埋め込みで作業しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we examined the zero-shot activity recognition task with the
usage of videos. We introduce an auto-encoder based model to construct a
multimodal joint embedding space between the visual and textual manifolds. On
the visual side, we used activity videos and a state-of-the-art 3D
convolutional action recognition network to extract the features. On the
textual side, we worked with GloVe word embeddings. The zero-shot recognition
results are evaluated by top-n accuracy. Then, the manifold learning ability is
measured by mean Nearest Neighbor Overlap. In the end, we provide an extensive
discussion over the results and the future directions.
- Abstract(参考訳): 本稿では,ビデオを用いたゼロショット活動認識タスクについて検討した。
視覚的およびテキスト的多様体間の複数モーダルな結合埋め込み空間を構築するための自動エンコーダモデルを提案する。
視覚面では,アクティビティビデオと最先端の3d畳み込み動作認識ネットワークを用いて特徴抽出を行った。
テキスト側では、GloVeワードの埋め込みで作業しました。
ゼロショット認識結果をトップn精度で評価する。
そして、最近傍のオーバーラップ平均により、多様体学習能力を測定する。
最後に、結果と今後の方向性について広範な議論を行います。
関連論文リスト
- Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Tell me what you see: A zero-shot action recognition method based on
natural language descriptions [3.136605193634262]
ビデオから意味情報を抽出するビデオキャプション手法を提案する。
私たちの知る限りでは、ビデオとラベルの両方を記述文で表現するのはこれが初めてです。
複数のテキストデータセット上でパラフレージングタスクで事前訓練されたBERTベースの埋め込みを用いた共有意味空間を構築する。
論文 参考訳(メタデータ) (2021-12-18T17:44:07Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z) - Improved Actor Relation Graph based Group Activity Recognition [0.0]
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。
本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T19:46:49Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。