論文の概要: Video Action Understanding
- arxiv url: http://arxiv.org/abs/2010.06647v2
- Date: Sun, 3 Oct 2021 21:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 23:13:22.213119
- Title: Video Action Understanding
- Title(参考訳): ビデオアクション理解
- Authors: Matthew Hutchinson and Vijay Gadepally
- Abstract要約: 本チュートリアルでは,教師付きビデオ行動理解における基本的話題,基本概念,特筆すべき例を紹介し,体系化する。
具体的には、アクション問題の分類を明らかにし、ビデオデータセットのカタログ化とハイライトを行い、一般的なビデオデータ作成方法を記述し、提案したソリューションをベースライン化するためにドメイン固有のメトリクスを形式化する。
- 参考スコア(独自算出の注目度): 6.04698204230499
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many believe that the successes of deep learning on image understanding
problems can be replicated in the realm of video understanding. However, due to
the scale and temporal nature of video, the span of video understanding
problems and the set of proposed deep learning solutions is arguably wider and
more diverse than those of their 2D image siblings. Finding, identifying, and
predicting actions are a few of the most salient tasks in this emerging and
rapidly evolving field. With a pedagogical emphasis, this tutorial introduces
and systematizes fundamental topics, basic concepts, and notable examples in
supervised video action understanding. Specifically, we clarify a taxonomy of
action problems, catalog and highlight video datasets, describe common video
data preparation methods, present the building blocks of state-of-the art deep
learning model architectures, and formalize domain-specific metrics to baseline
proposed solutions. This tutorial is intended to be accessible to a general
computer science audience and assumes a conceptual understanding of supervised
learning.
- Abstract(参考訳): 多くの人は、画像理解問題におけるディープラーニングの成功は、ビデオ理解の領域で再現できると考えている。
しかし、ビデオのスケールと時間的性質から、ビデオ理解の問題の範囲と、提案されたディープラーニングソリューションのセットは、2d画像の兄弟よりもかなり広く、多様である。
行動の発見、特定、予測は、この新興で急速に進化する分野において最も有能なタスクの1つである。
本チュートリアルは,教育的重点を置き,基本的な話題,基本概念,そして映像行動理解における顕著な例を紹介し,体系化する。
具体的には、アクション問題の分類、ビデオデータセットのカタログ化とハイライト、一般的なビデオデータ作成方法の記述、最先端のディープラーニングモデルアーキテクチャの構築ブロックの提示、ベースライン提案されたソリューションへのドメイン固有のメトリクスの形式化などを明らかにする。
このチュートリアルは、一般のコンピュータサイエンスの読者に公開することを目的としており、教師付き学習の概念的理解を前提としている。
関連論文リスト
- Knowledge-enhanced Multi-perspective Video Representation Learning for
Scene Recognition [33.800842679024164]
我々は,映像シーン認識の課題に対処し,高レベルの映像表現を学習して映像シーンを分類することを目的とする。
既存の作品の多くは、時間的視点で視覚情報やテキスト情報のみからビデオのシーンを識別している。
複数の視点から映像表現をモデル化する新しい2ストリームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T04:37:10Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z) - Classification of Important Segments in Educational Videos using
Multimodal Features [10.175871202841346]
本稿では,最先端の音声・視覚・テキスト機能を利用したマルチモーダルニューラルアーキテクチャを提案する。
本実験では,視覚的・時間的情報の影響と,重大予測に対するマルチモーダル特徴の組み合わせについて検討した。
論文 参考訳(メタデータ) (2020-10-26T14:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。