論文の概要: Video Action Understanding
- arxiv url: http://arxiv.org/abs/2010.06647v2
- Date: Sun, 3 Oct 2021 21:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 23:13:22.213119
- Title: Video Action Understanding
- Title(参考訳): ビデオアクション理解
- Authors: Matthew Hutchinson and Vijay Gadepally
- Abstract要約: 本チュートリアルでは,教師付きビデオ行動理解における基本的話題,基本概念,特筆すべき例を紹介し,体系化する。
具体的には、アクション問題の分類を明らかにし、ビデオデータセットのカタログ化とハイライトを行い、一般的なビデオデータ作成方法を記述し、提案したソリューションをベースライン化するためにドメイン固有のメトリクスを形式化する。
- 参考スコア(独自算出の注目度): 6.04698204230499
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many believe that the successes of deep learning on image understanding
problems can be replicated in the realm of video understanding. However, due to
the scale and temporal nature of video, the span of video understanding
problems and the set of proposed deep learning solutions is arguably wider and
more diverse than those of their 2D image siblings. Finding, identifying, and
predicting actions are a few of the most salient tasks in this emerging and
rapidly evolving field. With a pedagogical emphasis, this tutorial introduces
and systematizes fundamental topics, basic concepts, and notable examples in
supervised video action understanding. Specifically, we clarify a taxonomy of
action problems, catalog and highlight video datasets, describe common video
data preparation methods, present the building blocks of state-of-the art deep
learning model architectures, and formalize domain-specific metrics to baseline
proposed solutions. This tutorial is intended to be accessible to a general
computer science audience and assumes a conceptual understanding of supervised
learning.
- Abstract(参考訳): 多くの人は、画像理解問題におけるディープラーニングの成功は、ビデオ理解の領域で再現できると考えている。
しかし、ビデオのスケールと時間的性質から、ビデオ理解の問題の範囲と、提案されたディープラーニングソリューションのセットは、2d画像の兄弟よりもかなり広く、多様である。
行動の発見、特定、予測は、この新興で急速に進化する分野において最も有能なタスクの1つである。
本チュートリアルは,教育的重点を置き,基本的な話題,基本概念,そして映像行動理解における顕著な例を紹介し,体系化する。
具体的には、アクション問題の分類、ビデオデータセットのカタログ化とハイライト、一般的なビデオデータ作成方法の記述、最先端のディープラーニングモデルアーキテクチャの構築ブロックの提示、ベースライン提案されたソリューションへのドメイン固有のメトリクスの形式化などを明らかにする。
このチュートリアルは、一般のコンピュータサイエンスの読者に公開することを目的としており、教師付き学習の概念的理解を前提としている。
関連論文リスト
- Enhancing Multi-Modal Video Sentiment Classification Through Semi-Supervised Clustering [0.0]
本研究の目的は,映像そのもの,付随するテキスト,音響的特徴の2つの重要な側面に着目し,映像の感情分類を改善することである。
我々は,クラスタリングに基づく半教師付き事前学習を利用して,データから意味のある表現を抽出する手法を開発した。
論文 参考訳(メタデータ) (2025-01-11T08:04:39Z) - Towards Long Video Understanding via Fine-detailed Video Story Generation [58.31050916006673]
長いビデオ理解はコンピュータビジョンにおいて重要な課題となり、監視からコンテンツ検索まで多くのアプリケーションで進歩を遂げている。
既存のビデオ理解手法は、複雑な長期コンテキスト関係モデリングと冗長性からの干渉という、長いビデオ理解を扱う際の2つの課題に悩まされる。
長い動画を詳細なテキスト表現に変換するFDVS(Fin-Detailed Video Story Generation)を紹介した。
論文 参考訳(メタデータ) (2024-12-09T03:41:28Z) - Deep video representation learning: a survey [4.9589745881431435]
近年,視覚データに対する逐次的特徴学習法が提案され,その特徴と欠点を比較して一般的なビデオ解析を行った。
ビデオ解析と理解を含むコンピュータビジョンタスクにおいて、ビデオの効果的な機能を構築することが根本的な問題である。
論文 参考訳(メタデータ) (2024-05-10T16:20:11Z) - Knowledge-enhanced Multi-perspective Video Representation Learning for
Scene Recognition [33.800842679024164]
我々は,映像シーン認識の課題に対処し,高レベルの映像表現を学習して映像シーンを分類することを目的とする。
既存の作品の多くは、時間的視点で視覚情報やテキスト情報のみからビデオのシーンを識別している。
複数の視点から映像表現をモデル化する新しい2ストリームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T04:37:10Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z) - Classification of Important Segments in Educational Videos using
Multimodal Features [10.175871202841346]
本稿では,最先端の音声・視覚・テキスト機能を利用したマルチモーダルニューラルアーキテクチャを提案する。
本実験では,視覚的・時間的情報の影響と,重大予測に対するマルチモーダル特徴の組み合わせについて検討した。
論文 参考訳(メタデータ) (2020-10-26T14:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。