論文の概要: Temporal Action Segmentation: An Analysis of Modern Technique
- arxiv url: http://arxiv.org/abs/2210.10352v1
- Date: Wed, 19 Oct 2022 07:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:36:26.037871
- Title: Temporal Action Segmentation: An Analysis of Modern Technique
- Title(参考訳): 時間的行動セグメンテーション : 現代技術の分析
- Authors: Guodong Ding, Fadime Sener and Angela Yao
- Abstract要約: ビデオからの時間的アクションセグメンテーションは、ビデオフレームの濃密なラベル付けと、複数のアクションクラスを数分のビデオに含めることを目的としている。
近年のアクションセグメンテーション技術の急速な発展にもかかわらず、そのような分野では体系的な調査は行われていない。
- 参考スコア(独自算出の注目度): 26.499621961069142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action segmentation from videos aims at the dense labeling of video
frames with multiple action classes in minutes-long videos. Categorized as a
long-range video understanding task, researchers have proposed an extended
collection of methods and examined their performance using various benchmarks.
Despite the rapid development of action segmentation techniques in recent
years, there has been no systematic survey in such fields. To this end, in this
survey, we analyze and summarize the main contributions and trends for this
task. Specifically, we first examine the task definition, common benchmarks,
types of supervision, and popular evaluation measures. Furthermore, we
systematically investigate two fundamental aspects of this topic, i.e., frame
representation and temporal modeling, which are widely and extensively studied
in the literature. We then comprehensively review existing temporal action
segmentation works, each categorized by their form of supervision. Finally, we
conclude our survey by highlighting and identifying several open topics for
research. In addition, we supplement our survey with a curated list of temporal
action segmentation resources, which is available at
https://github.com/atlas-eccv22/awesome-temporal-action-segmentation.
- Abstract(参考訳): ビデオからの時間的アクションセグメンテーションは、分単位の動画において、複数のアクションクラスを持つビデオフレームの密接なラベリングを目的としている。
長距離ビデオ理解タスクとして分類され、研究者は拡張した手法のコレクションを提案し、様々なベンチマークを用いてその性能を調査した。
近年のアクションセグメンテーション技術の急速な発展にもかかわらず、そのような分野では体系的な調査は行われていない。
この目的のために、本調査では、このタスクの主なコントリビューションとトレンドを分析し、要約する。
具体的には,まずタスク定義,共通ベンチマーク,監督の種類,一般的な評価尺度について検討した。
さらに,本研究の2つの基本的側面,すなわちフレーム表現と時間モデリングを体系的に検討し,文献で広く研究されている。
次に,既存の時間的行動セグメンテーション作業について概観的にレビューし,それぞれを監督形態で分類する。
最後に,研究のためのオープントピックをいくつか強調し,特定することで調査を締めくくった。
さらに, 時間的アクションセグメンテーションリソースのキュレートされたリストを補足し, https://github.com/atlas-eccv22/awesome-temporal-action-segmentationで利用可能である。
関連論文リスト
- About Time: Advances, Challenges, and Outlooks of Action Understanding [57.76390141287026]
この調査は、様々なタスクにおけるユニモーダルおよびマルチモーダルな行動理解の進歩を包括的にレビューする。
我々は,現在普及している課題,広く採用されているデータセットの概要,そして最近の進歩を重視したセミナー作品の調査に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-22T18:09:27Z) - Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks [26.007846170517055]
本研究では、時間的ビデオ理解タスクの出力を離散トークンのシーケンスとして定式化するために、Temporal2Seqと呼ばれる単一の統合フレームワークを提案する。
この統一されたトークン表現により、Temporal2Seqは、異なるビデオ理解タスクで単一のアーキテクチャ内でジェネラリストモデルをトレーニングすることができる。
我々はTemporal2Seqジェネリストモデルを3つのタスクの対応するテストセット上で評価し、Temporal2Seqが様々なタスクに対して合理的な結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-27T06:37:47Z) - Deep Learning for Video Anomaly Detection: A Review [52.74513211976795]
ビデオ異常検出(VAD)は、ビデオの正常性から逸脱する行動や事象を発見することを目的としている。
ディープラーニングの時代には、VADタスクには、さまざまなディープラーニングベースの方法が常に現れています。
このレビューでは、半教師付き、弱教師付き、完全教師付き、非教師付き、オープンセットの5つのカテゴリのスペクトルについて取り上げる。
論文 参考訳(メタデータ) (2024-09-09T07:31:16Z) - Segment Anything for Videos: A Systematic Survey [52.28931543292431]
最近のファンデーションモデルの波は、コンピュータビジョン(CV)などにおいて大きな成功を収めている。
セグメンテーション・アズ・モデル(SAM)はタスクに依存しない視覚基盤モデルを探究する情熱を喚起した。
本研究は,基礎モデル時代のビデオに対するSAMの体系的レビューを行う。
論文 参考訳(メタデータ) (2024-07-31T02:24:53Z) - A Survey on Deep Learning-based Spatio-temporal Action Detection [8.456482280676884]
STADは、ビデオに存在するアクションを分類し、空間と時間でローカライズすることを目的としている。
それは、爆発的に出現する現実世界の応用のために、コンピュータビジョンにおける特に活発な研究領域となっている。
本稿では,STADの最先端の深層学習手法について概観する。
論文 参考訳(メタデータ) (2023-08-03T08:48:14Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Deep Learning-based Action Detection in Untrimmed Videos: A Survey [20.11911785578534]
ほとんどの現実世界のビデオは長く、興味をそそる部分がある。
非トリミングビデオにおける時間的活動検出のタスクは、アクションの時間的境界をローカライズすることを目的としている。
本稿では,非トリミングビデオにおける時間的行動検出のためのディープラーニングに基づくアルゴリズムの概要について述べる。
論文 参考訳(メタデータ) (2021-09-30T22:42:25Z) - A Survey on Temporal Sentence Grounding in Videos [69.13365006222251]
ビデオ(TSGV)における時間的文グラウンドングは、与えられた文クエリに関する未編集ビデオから1つのターゲットセグメントをローカライズすることを目的としている。
我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
論文 参考訳(メタデータ) (2021-09-16T15:01:46Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。