論文の概要: Temporal Action Segmentation with High-level Complex Activity Labels
- arxiv url: http://arxiv.org/abs/2108.06706v1
- Date: Sun, 15 Aug 2021 09:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:10:08.572963
- Title: Temporal Action Segmentation with High-level Complex Activity Labels
- Title(参考訳): 高レベル複合活動ラベルを用いた時間的行動セグメンテーション
- Authors: Guodong Ding and Angela Yao
- Abstract要約: 我々は、高レベルなアクティビティラベルのみを入力とするアクションセグメントを学習する。
本稿では,ビデオ中の構成要素を自動検出する新しいアクション発見フレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.17792724210746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past few years, the success in action recognition on short trimmed
videos has led more investigations towards the temporal segmentation of actions
in untrimmed long videos. Recently, supervised approaches have achieved
excellent performance in segmenting complex human actions in untrimmed videos.
However, besides action labels, such approaches also require the start and end
points of each action, which is expensive and tedious to collect.
In this paper, we aim to learn the action segments taking only the high-level
activity labels as input. Under the setting where no action-level supervision
is provided, Hungarian matching is often used to find the mapping between
segments and ground truth actions to evaluate the model and report the
performance. On the one hand, we show that with the high-level supervision, we
are able to generalize the Hungarian matching settings from the current video
and activity level to the global level. The extended global-level matching
allows for the shared actions across activities. On the other hand, we propose
a novel action discovery framework that automatically discovers constituent
actions in videos with the activity classification task. Specifically, we
define a finite number of prototypes to form a dual representation of a video
sequence. These collectively learned prototypes are considered discovered
actions. This classification setting endows our approach the capability of
discovering potentially shared actions across multiple complex activities.
Extensive experiments demonstrate that the discovered actions are helpful in
performing temporal action segmentation and activity recognition.
- Abstract(参考訳): 過去数年間、短いトリミングビデオでのアクション認識の成功は、未トリミングビデオにおけるアクションの時間的セグメンテーションに向けたさらなる調査につながった。
近年,非トリミングビデオにおける複雑なヒューマンアクションのセグメンテーションにおいて,教師付きアプローチが優れた性能を達成している。
しかし、アクションラベルの他に、これらのアプローチは各アクションの開始点と終了点を必要とする。
本稿では,高レベルなアクティビティラベルのみを入力とするアクションセグメントの学習を目的とする。
アクションレベルの監視が提供されない環境では、ハンガリーのマッチングは、セグメントと地上の真実のアクションの間のマッピングを見つけ、モデルを評価し、パフォーマンスを報告するためにしばしば使用される。
一方、ハイレベルな監視では、現在のビデオとアクティビティレベルからグローバルレベルまで、ハンガリーのマッチング設定を一般化できることが示されています。
拡張されたグローバルレベルのマッチングは、アクティビティ間の共有アクションを可能にする。
一方,行動分類タスクを用いて動画中の構成動作を自動的に検出する新しい行動発見フレームワークを提案する。
具体的には,映像列の双対表現を形成するために,有限個のプロトタイプを定義する。
これらの学習されたプロトタイプは発見された行動とみなされる。
この分類設定は、複数の複雑なアクティビティ間で潜在的に共有されたアクションを発見する能力を内包する。
大規模な実験により、発見された行動は時間的行動セグメンテーションと活動認識の実行に有用であることが示されている。
関連論文リスト
- Skim then Focus: Integrating Contextual and Fine-grained Views for Repetitive Action Counting [87.11995635760108]
アクションカウントの鍵は、各ビデオの反復的なアクションを正確に見つけ出すことである。
両ブランチネットワーク,すなわちSkimFocusNetを提案する。
論文 参考訳(メタデータ) (2024-06-13T05:15:52Z) - Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。
本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文 参考訳(メタデータ) (2023-05-07T04:18:22Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - Deep Learning-based Action Detection in Untrimmed Videos: A Survey [20.11911785578534]
ほとんどの現実世界のビデオは長く、興味をそそる部分がある。
非トリミングビデオにおける時間的活動検出のタスクは、アクションの時間的境界をローカライズすることを目的としている。
本稿では,非トリミングビデオにおける時間的行動検出のためのディープラーニングに基づくアルゴリズムの概要について述べる。
論文 参考訳(メタデータ) (2021-09-30T22:42:25Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z) - Learning to Localize Actions from Moments [153.54638582696128]
本研究では,多種多様な行動カテゴリに対する行動ローカライゼーションを学習するトランスファーラーニングタイプの新しい設計を提案する。
本稿では、そのような設計をワンステージのアクションローカライズフレームワークに統合するアクション・ヘラルド・ネットワーク(AherNet)を提案する。
論文 参考訳(メタデータ) (2020-08-31T16:03:47Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。