論文の概要: Efficient and Effective Weakly-Supervised Action Segmentation via Action-Transition-Aware Boundary Alignment
- arxiv url: http://arxiv.org/abs/2403.19225v1
- Date: Thu, 28 Mar 2024 08:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:03:08.523069
- Title: Efficient and Effective Weakly-Supervised Action Segmentation via Action-Transition-Aware Boundary Alignment
- Title(参考訳): 動作-遷移-認識境界アライメントによる効果的かつ効果的に改善されたアクションセグメンテーション
- Authors: Angchi Xu, Wei-Shi Zheng,
- Abstract要約: 弱教師付きアクションセグメンテーションは、長いビデオを複数のアクションセグメンテーションに分割する学習である。
既存の手法の多くは、すべてのフレームと転写文間のシリアルアライメントによるトレーニングのために擬似セグメンテーションを推論する必要がある。
本稿では,雑音境界を効果的かつ効果的にフィルタリングし,遷移を検出する新しい行動遷移対応境界アライメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.74853437611066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised action segmentation is a task of learning to partition a long video into several action segments, where training videos are only accompanied by transcripts (ordered list of actions). Most of existing methods need to infer pseudo segmentation for training by serial alignment between all frames and the transcript, which is time-consuming and hard to be parallelized while training. In this work, we aim to escape from this inefficient alignment with massive but redundant frames, and instead to directly localize a few action transitions for pseudo segmentation generation, where a transition refers to the change from an action segment to its next adjacent one in the transcript. As the true transitions are submerged in noisy boundaries due to intra-segment visual variation, we propose a novel Action-Transition-Aware Boundary Alignment (ATBA) framework to efficiently and effectively filter out noisy boundaries and detect transitions. In addition, to boost the semantic learning in the case that noise is inevitably present in the pseudo segmentation, we also introduce video-level losses to utilize the trusted video-level supervision. Extensive experiments show the effectiveness of our approach on both performance and training speed.
- Abstract(参考訳): 弱い監督されたアクションセグメンテーションは、長いビデオを複数のアクションセグメンテーションに分割する学習のタスクである。
既存の手法の多くは、トレーニング中に並列化が困難で時間を要するすべてのフレームと書き起こしのシリアルアライメントによって、トレーニングのために擬似セグメンテーションを推論する必要がある。
本研究では、この非効率なフレームとのアライメントを回避し、代わりに擬セグメント生成のためのいくつかのアクション遷移を直接ローカライズすることを目的としている。
そこで本研究では, ノイズ境界を効果的かつ効果的に除去し, 遷移を検出するための, アクション・トランジション・アウェア境界アライメント (ATBA) フレームワークを提案する。
さらに,疑似セグメンテーションにノイズが必然的に存在する場合のセグメンテーション学習を促進するために,信頼度の高い映像レベルの監視を活用するために,映像レベルの損失も導入する。
大規模な実験は、我々のアプローチが性能とトレーニング速度の両方に有効であることを示す。
関連論文リスト
- Efficient Temporal Action Segmentation via Boundary-aware Query Voting [51.92693641176378]
BaFormerは境界対応のTransformerネットワークで、各ビデオセグメントをインスタンストークンとしてトークン化する。
BaFormerは実行時間の6%しか利用せず、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-05-25T00:44:13Z) - O-TALC: Steps Towards Combating Oversegmentation within Online Action Segmentation [0.48748194765816943]
本稿では、バックボーン動作認識モデルのトレーニングと推論を改善する2つの方法を提案する。
まず、トレーニング中の高密度サンプリングを導入し、トレーニングと推論クリップマッチングを容易にし、セグメント境界予測を改善する。
第2に,オンライン推論における過小評価を明示的に低減するオンライン一時認識ラベルクリーニング(O-TALC)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-10T10:36:15Z) - Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Entity-aware and Motion-aware Transformers for Language-driven Action
Localization in Videos [29.81187528951681]
動画中のアクションを段階的にローカライズするエンティティ・アウェア・モーション・アウェア・トランスフォーマーを提案する。
エンティティ対応トランスフォーマーは、テキストエンティティを視覚表現学習に組み込む。
動き認識変換器は、複数の時間スケールで微細な動き変化をキャプチャする。
論文 参考訳(メタデータ) (2022-05-12T03:00:40Z) - Transformers in Action:Weakly Supervised Action Segmentation [81.18941007536468]
等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。
また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。
提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
論文 参考訳(メタデータ) (2022-01-14T21:15:58Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z) - Weakly Supervised Temporal Action Localization with Segment-Level Labels [140.68096218667162]
時間的アクションローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。
ここでは、アノテーションがアクションを観察するときにセグメントがラベル付けされる。
我々は、ラベル付きセグメントから積分的な動作部分を学ぶために、損失サンプリングと見なされる部分的なセグメント損失を考案する。
論文 参考訳(メタデータ) (2020-07-03T10:32:19Z) - SCT: Set Constrained Temporal Transformer for Set Supervised Action
Segmentation [22.887397951846353]
弱教師付きアプローチは、弱ラベル付きビデオから時間的アクションセグメンテーションを学ぶことを目的としている。
このようなデータに基づいてエンドツーエンドにトレーニング可能なアプローチを提案する。
提案手法は,最先端の結果が得られる3つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2020-03-31T14:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。