論文の概要: Temporal Action Segmentation: An Analysis of Modern Techniques
- arxiv url: http://arxiv.org/abs/2210.10352v5
- Date: Sat, 21 Oct 2023 04:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 14:34:58.520808
- Title: Temporal Action Segmentation: An Analysis of Modern Techniques
- Title(参考訳): 時間的行動セグメンテーション : 現代技術の分析
- Authors: Guodong Ding, Fadime Sener, and Angela Yao
- Abstract要約: ビデオにおける時間的アクションセグメンテーション(TAS)は、複数のアクションクラスを持つ分長ビデオにおいて、ビデオフレームを密に識別することを目的としている。
近年のTAS技術の急速な発展にもかかわらず、これらの分野では体系的な調査は行われていない。
この調査は、最も重要なコントリビューションとトレンドを分析し、要約します。
- 参考スコア(独自算出の注目度): 43.725939095985915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action segmentation (TAS) in videos aims at densely identifying
video frames in minutes-long videos with multiple action classes. As a
long-range video understanding task, researchers have developed an extended
collection of methods and examined their performance using various benchmarks.
Despite the rapid growth of TAS techniques in recent years, no systematic
survey has been conducted in these sectors. This survey analyzes and summarizes
the most significant contributions and trends. In particular, we first examine
the task definition, common benchmarks, types of supervision, and prevalent
evaluation measures. In addition, we systematically investigate two essential
techniques of this topic, i.e., frame representation and temporal modeling,
which have been studied extensively in the literature. We then conduct a
thorough review of existing TAS works categorized by their levels of
supervision and conclude our survey by identifying and emphasizing several
research gaps. In addition, we have curated a list of TAS resources, which is
available at https://github.com/nus-cvml/awesome-temporal-action-segmentation.
- Abstract(参考訳): ビデオ中の時間的アクションセグメンテーション(TAS)は、複数のアクションクラスを持つ数分ビデオ内のビデオフレームを密に識別することを目的としている。
長距離ビデオ理解タスクとして、研究者は拡張した手法群を開発し、様々なベンチマークを用いてその性能を調査した。
近年のTAS技術の急速な発展にもかかわらず、これらの分野では体系的な調査は行われていない。
本調査は,最も重要な貢献と傾向を分析し,要約する。
特に,まずタスク定義,共通ベンチマーク,監督の種類,一般的な評価尺度について検討した。
さらに,本研究で広く研究されているフレーム表現と時間モデリングの2つの重要な手法を体系的に検討した。
次に、既存のTAS研究を監督レベルによって分類し、いくつかの研究ギャップを特定し、強調することで調査を終了する。
さらに、我々はTASリソースのリストをキュレートし、https://github.com/nus-cvml/awesome-temporal-action-segmentation.comで入手できる。
関連論文リスト
- Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - A Survey on Deep Learning-based Spatio-temporal Action Detection [8.456482280676884]
STADは、ビデオに存在するアクションを分類し、空間と時間でローカライズすることを目的としている。
それは、爆発的に出現する現実世界の応用のために、コンピュータビジョンにおける特に活発な研究領域となっている。
本稿では,STADの最先端の深層学習手法について概観する。
論文 参考訳(メタデータ) (2023-08-03T08:48:14Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Deep Learning-based Action Detection in Untrimmed Videos: A Survey [20.11911785578534]
ほとんどの現実世界のビデオは長く、興味をそそる部分がある。
非トリミングビデオにおける時間的活動検出のタスクは、アクションの時間的境界をローカライズすることを目的としている。
本稿では,非トリミングビデオにおける時間的行動検出のためのディープラーニングに基づくアルゴリズムの概要について述べる。
論文 参考訳(メタデータ) (2021-09-30T22:42:25Z) - A Survey on Temporal Sentence Grounding in Videos [69.13365006222251]
ビデオ(TSGV)における時間的文グラウンドングは、与えられた文クエリに関する未編集ビデオから1つのターゲットセグメントをローカライズすることを目的としている。
我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
論文 参考訳(メタデータ) (2021-09-16T15:01:46Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Few-Shot Action Localization without Knowing Boundaries [9.959844922120523]
対象のアクションの1/2のトリミング例がテスト時にのみ利用可能である場合,未トリミングビデオ中のアクションのローカライズを学習可能であることを示す。
ビデオのペア間の微細な類似パターンをモデル化した時間的類似度行列(TSM)を推定するネットワークを提案する。
提案手法は,最先端の完全教師付き,少数ショットの学習手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-06-08T07:32:43Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。