論文の概要: Temporal Action Segmentation: An Analysis of Modern Technique
- arxiv url: http://arxiv.org/abs/2210.10352v1
- Date: Wed, 19 Oct 2022 07:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:36:26.037871
- Title: Temporal Action Segmentation: An Analysis of Modern Technique
- Title(参考訳): 時間的行動セグメンテーション : 現代技術の分析
- Authors: Guodong Ding, Fadime Sener and Angela Yao
- Abstract要約: ビデオからの時間的アクションセグメンテーションは、ビデオフレームの濃密なラベル付けと、複数のアクションクラスを数分のビデオに含めることを目的としている。
近年のアクションセグメンテーション技術の急速な発展にもかかわらず、そのような分野では体系的な調査は行われていない。
- 参考スコア(独自算出の注目度): 26.499621961069142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action segmentation from videos aims at the dense labeling of video
frames with multiple action classes in minutes-long videos. Categorized as a
long-range video understanding task, researchers have proposed an extended
collection of methods and examined their performance using various benchmarks.
Despite the rapid development of action segmentation techniques in recent
years, there has been no systematic survey in such fields. To this end, in this
survey, we analyze and summarize the main contributions and trends for this
task. Specifically, we first examine the task definition, common benchmarks,
types of supervision, and popular evaluation measures. Furthermore, we
systematically investigate two fundamental aspects of this topic, i.e., frame
representation and temporal modeling, which are widely and extensively studied
in the literature. We then comprehensively review existing temporal action
segmentation works, each categorized by their form of supervision. Finally, we
conclude our survey by highlighting and identifying several open topics for
research. In addition, we supplement our survey with a curated list of temporal
action segmentation resources, which is available at
https://github.com/atlas-eccv22/awesome-temporal-action-segmentation.
- Abstract(参考訳): ビデオからの時間的アクションセグメンテーションは、分単位の動画において、複数のアクションクラスを持つビデオフレームの密接なラベリングを目的としている。
長距離ビデオ理解タスクとして分類され、研究者は拡張した手法のコレクションを提案し、様々なベンチマークを用いてその性能を調査した。
近年のアクションセグメンテーション技術の急速な発展にもかかわらず、そのような分野では体系的な調査は行われていない。
この目的のために、本調査では、このタスクの主なコントリビューションとトレンドを分析し、要約する。
具体的には,まずタスク定義,共通ベンチマーク,監督の種類,一般的な評価尺度について検討した。
さらに,本研究の2つの基本的側面,すなわちフレーム表現と時間モデリングを体系的に検討し,文献で広く研究されている。
次に,既存の時間的行動セグメンテーション作業について概観的にレビューし,それぞれを監督形態で分類する。
最後に,研究のためのオープントピックをいくつか強調し,特定することで調査を締めくくった。
さらに, 時間的アクションセグメンテーションリソースのキュレートされたリストを補足し, https://github.com/atlas-eccv22/awesome-temporal-action-segmentationで利用可能である。
関連論文リスト
- Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - A Survey on Deep Learning-based Spatio-temporal Action Detection [8.456482280676884]
STADは、ビデオに存在するアクションを分類し、空間と時間でローカライズすることを目的としている。
それは、爆発的に出現する現実世界の応用のために、コンピュータビジョンにおける特に活発な研究領域となっている。
本稿では,STADの最先端の深層学習手法について概観する。
論文 参考訳(メタデータ) (2023-08-03T08:48:14Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Deep Learning-based Action Detection in Untrimmed Videos: A Survey [20.11911785578534]
ほとんどの現実世界のビデオは長く、興味をそそる部分がある。
非トリミングビデオにおける時間的活動検出のタスクは、アクションの時間的境界をローカライズすることを目的としている。
本稿では,非トリミングビデオにおける時間的行動検出のためのディープラーニングに基づくアルゴリズムの概要について述べる。
論文 参考訳(メタデータ) (2021-09-30T22:42:25Z) - A Survey on Temporal Sentence Grounding in Videos [69.13365006222251]
ビデオ(TSGV)における時間的文グラウンドングは、与えられた文クエリに関する未編集ビデオから1つのターゲットセグメントをローカライズすることを目的としている。
我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
論文 参考訳(メタデータ) (2021-09-16T15:01:46Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Few-Shot Action Localization without Knowing Boundaries [9.959844922120523]
対象のアクションの1/2のトリミング例がテスト時にのみ利用可能である場合,未トリミングビデオ中のアクションのローカライズを学習可能であることを示す。
ビデオのペア間の微細な類似パターンをモデル化した時間的類似度行列(TSM)を推定するネットワークを提案する。
提案手法は,最先端の完全教師付き,少数ショットの学習手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-06-08T07:32:43Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。