論文の概要: Temporal Action Segmentation: An Analysis of Modern Techniques
- arxiv url: http://arxiv.org/abs/2210.10352v4
- Date: Sat, 12 Aug 2023 13:07:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 23:07:13.219860
- Title: Temporal Action Segmentation: An Analysis of Modern Techniques
- Title(参考訳): 時間的行動セグメンテーション : 現代技術の分析
- Authors: Guodong Ding, Fadime Sener, and Angela Yao
- Abstract要約: ビデオにおける時間的アクションセグメンテーション(TAS)は、複数のアクションクラスを持つ分長ビデオにおいて、ビデオフレームを密に識別することを目的としている。
近年のTAS技術の急速な発展にもかかわらず、これらの分野では体系的な調査は行われていない。
この調査は、最も重要なコントリビューションとトレンドを分析し、要約します。
- 参考スコア(独自算出の注目度): 43.725939095985915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action segmentation (TAS) in videos aims at densely identifying
video frames in minutes-long videos with multiple action classes. As a
long-range video understanding task, researchers have developed an extended
collection of methods and examined their performance using various benchmarks.
Despite the rapid growth of TAS techniques in recent years, no systematic
survey has been conducted in these sectors. This survey analyzes and summarizes
the most significant contributions and trends. In particular, we first examine
the task definition, common benchmarks, types of supervision, and prevalent
evaluation measures. In addition, we systematically investigate two essential
techniques of this topic, i.e., frame representation and temporal modeling,
which have been studied extensively in the literature. We then conduct a
thorough review of existing TAS works categorized by their levels of
supervision and conclude our survey by identifying and emphasizing several
research gaps. In addition, we have curated a list of TAS resources, which is
available at https://github.com/nus-cvml/awesome-temporal-action-segmentation.
- Abstract(参考訳): ビデオ中の時間的アクションセグメンテーション(TAS)は、複数のアクションクラスを持つ数分ビデオ内のビデオフレームを密に識別することを目的としている。
長距離ビデオ理解タスクとして、研究者は拡張した手法群を開発し、様々なベンチマークを用いてその性能を調査した。
近年のTAS技術の急速な発展にもかかわらず、これらの分野では体系的な調査は行われていない。
本調査は,最も重要な貢献と傾向を分析し,要約する。
特に,まずタスク定義,共通ベンチマーク,監督の種類,一般的な評価尺度について検討した。
さらに,本研究で広く研究されているフレーム表現と時間モデリングの2つの重要な手法を体系的に検討した。
次に、既存のTAS研究を監督レベルによって分類し、いくつかの研究ギャップを特定し、強調することで調査を終了する。
さらに、我々はTASリソースのリストをキュレートし、https://github.com/nus-cvml/awesome-temporal-action-segmentation.comで入手できる。
関連論文リスト
- About Time: Advances, Challenges, and Outlooks of Action Understanding [57.76390141287026]
この調査は、様々なタスクにおけるユニモーダルおよびマルチモーダルな行動理解の進歩を包括的にレビューする。
我々は,現在普及している課題,広く採用されているデータセットの概要,そして最近の進歩を重視したセミナー作品の調査に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-22T18:09:27Z) - Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks [26.007846170517055]
本研究では、時間的ビデオ理解タスクの出力を離散トークンのシーケンスとして定式化するために、Temporal2Seqと呼ばれる単一の統合フレームワークを提案する。
この統一されたトークン表現により、Temporal2Seqは、異なるビデオ理解タスクで単一のアーキテクチャ内でジェネラリストモデルをトレーニングすることができる。
我々はTemporal2Seqジェネリストモデルを3つのタスクの対応するテストセット上で評価し、Temporal2Seqが様々なタスクに対して合理的な結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-27T06:37:47Z) - Deep Learning for Video Anomaly Detection: A Review [52.74513211976795]
ビデオ異常検出(VAD)は、ビデオの正常性から逸脱する行動や事象を発見することを目的としている。
ディープラーニングの時代には、VADタスクには、さまざまなディープラーニングベースの方法が常に現れています。
このレビューでは、半教師付き、弱教師付き、完全教師付き、非教師付き、オープンセットの5つのカテゴリのスペクトルについて取り上げる。
論文 参考訳(メタデータ) (2024-09-09T07:31:16Z) - Segment Anything for Videos: A Systematic Survey [52.28931543292431]
最近のファンデーションモデルの波は、コンピュータビジョン(CV)などにおいて大きな成功を収めている。
セグメンテーション・アズ・モデル(SAM)はタスクに依存しない視覚基盤モデルを探究する情熱を喚起した。
本研究は,基礎モデル時代のビデオに対するSAMの体系的レビューを行う。
論文 参考訳(メタデータ) (2024-07-31T02:24:53Z) - A Survey on Deep Learning-based Spatio-temporal Action Detection [8.456482280676884]
STADは、ビデオに存在するアクションを分類し、空間と時間でローカライズすることを目的としている。
それは、爆発的に出現する現実世界の応用のために、コンピュータビジョンにおける特に活発な研究領域となっている。
本稿では,STADの最先端の深層学習手法について概観する。
論文 参考訳(メタデータ) (2023-08-03T08:48:14Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Deep Learning-based Action Detection in Untrimmed Videos: A Survey [20.11911785578534]
ほとんどの現実世界のビデオは長く、興味をそそる部分がある。
非トリミングビデオにおける時間的活動検出のタスクは、アクションの時間的境界をローカライズすることを目的としている。
本稿では,非トリミングビデオにおける時間的行動検出のためのディープラーニングに基づくアルゴリズムの概要について述べる。
論文 参考訳(メタデータ) (2021-09-30T22:42:25Z) - A Survey on Temporal Sentence Grounding in Videos [69.13365006222251]
ビデオ(TSGV)における時間的文グラウンドングは、与えられた文クエリに関する未編集ビデオから1つのターゲットセグメントをローカライズすることを目的としている。
我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
論文 参考訳(メタデータ) (2021-09-16T15:01:46Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。