論文の概要: O-TALC: Steps Towards Combating Oversegmentation within Online Action Segmentation
- arxiv url: http://arxiv.org/abs/2404.06894v1
- Date: Wed, 10 Apr 2024 10:36:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 14:50:32.814805
- Title: O-TALC: Steps Towards Combating Oversegmentation within Online Action Segmentation
- Title(参考訳): O-TALC:オンラインアクションセグメンテーションにおけるオーバーセグメンテーションの議論に向けて
- Authors: Matthew Kent Myers, Nick Wright, A. Stephen McGough, Nicholas Martin,
- Abstract要約: 本稿では、バックボーン動作認識モデルのトレーニングと推論を改善する2つの方法を提案する。
まず、トレーニング中の高密度サンプリングを導入し、トレーニングと推論クリップマッチングを容易にし、セグメント境界予測を改善する。
第2に,オンライン推論における過小評価を明示的に低減するオンライン一時認識ラベルクリーニング(O-TALC)戦略を導入する。
- 参考スコア(独自算出の注目度): 0.48748194765816943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online temporal action segmentation shows a strong potential to facilitate many HRI tasks where extended human action sequences must be tracked and understood in real time. Traditional action segmentation approaches, however, operate in an offline two stage approach, relying on computationally expensive video wide features for segmentation, rendering them unsuitable for online HRI applications. In order to facilitate online action segmentation on a stream of incoming video data, we introduce two methods for improved training and inference of backbone action recognition models, allowing them to be deployed directly for online frame level classification. Firstly, we introduce surround dense sampling whilst training to facilitate training vs. inference clip matching and improve segment boundary predictions. Secondly, we introduce an Online Temporally Aware Label Cleaning (O-TALC) strategy to explicitly reduce oversegmentation during online inference. As our methods are backbone invariant, they can be deployed with computationally efficient spatio-temporal action recognition models capable of operating in real time with a small segmentation latency. We show our method outperforms similar online action segmentation work as well as matches the performance of many offline models with access to full temporal resolution when operating on challenging fine-grained datasets.
- Abstract(参考訳): オンラインの時間的行動セグメンテーションは、人間の行動シーケンスをリアルタイムで追跡し理解しなければならない多くのHRIタスクを促進する強力な可能性を示している。
しかし、従来のアクションセグメンテーションアプローチはオフラインの2段階のアプローチで運用されており、セグメンテーションのために計算に高価なビデオワイド機能に依存しており、オンラインHRIアプリケーションには適さない。
映像データのストリーム上でのオンラインアクションセグメンテーションを容易にするために、バックボーン動作認識モデルのトレーニングと推論を改善する2つの方法を導入し、オンラインフレームレベルの分類のために直接デプロイできるようにする。
まず,トレーニング中の密集サンプリングを導入し,トレーニングと推論クリップマッチングを容易にし,セグメント境界予測を改善する。
第2に,オンライン推論における過小評価を明示的に低減するオンライン一時認識ラベルクリーニング(O-TALC)戦略を導入する。
提案手法はバックボーン不変であるため,少ないセグメンテーションレイテンシでリアルタイムに動作可能な計算効率の良い時空間動作認識モデルを用いて展開することができる。
提案手法は類似のオンラインアクションセグメンテーション作業よりも優れており、また、多くのオフラインモデルの性能と、難解な細粒度データセットを操作する場合の完全な時間分解能との整合性を示す。
関連論文リスト
- Efficient and Effective Weakly-Supervised Action Segmentation via Action-Transition-Aware Boundary Alignment [33.74853437611066]
弱教師付きアクションセグメンテーションは、長いビデオを複数のアクションセグメンテーションに分割する学習である。
既存の手法の多くは、すべてのフレームと転写文間のシリアルアライメントによるトレーニングのために擬似セグメンテーションを推論する必要がある。
本稿では,雑音境界を効果的かつ効果的にフィルタリングし,遷移を検出する新しい行動遷移対応境界アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T08:39:44Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Temporal Segment Transformer for Action Segmentation [54.25103250496069]
本稿では,テキスト・セグメント・トランスフォーマ (textittemporal segment transformer) と呼ぶアテンション・ベース・アプローチを提案する。
主な考え方は、セグメントとフレームの間の注意を用いてセグメント表現を識別することであり、またセグメント間の時間的相関を捉えるためにセグメント間注意を用いる。
このアーキテクチャは,50Salads,GTEA,Breakfastのベンチマークにおいて,最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-02-25T13:05:57Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - ACGNet: Action Complement Graph Network for Weakly-supervised Temporal
Action Localization [39.377289930528555]
教師なしビデオにおける弱いトリミング時間的行動ローカライゼーション(WTAL)は,ビデオレベルラベルのみが利用可能であるため,実用的ではあるが困難な課題となっている。
既存のアプローチは、通常、空間的不完全性と時間的不整合に苦しむ、既成のセグメントレベルの特徴を利用する。
本稿では,単純なグラフ畳み込みネットワークを用いてセグメントレベルの表現を強化することで,この問題に対処する。
論文 参考訳(メタデータ) (2021-12-21T04:18:44Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z) - A Novel Online Action Detection Framework from Untrimmed Video Streams [19.895434487276578]
本稿では,時間的に順序付けられたサブクラスの集合として行動を検出する新しいオンライン行動検出フレームワークを提案する。
提案手法は,映像の長さを変化させることで,人間の行動における高いクラス内変動を学習できるようにする。
論文 参考訳(メタデータ) (2020-03-17T14:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。