論文の概要: SF-Net: Single-Frame Supervision for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2003.06845v6
- Date: Sat, 15 Aug 2020 04:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 08:46:25.766178
- Title: SF-Net: Single-Frame Supervision for Temporal Action Localization
- Title(参考訳): SF-Net: テンポラルアクションローカライゼーションのための単一フレームスーパービジョン
- Authors: Fan Ma, Linchao Zhu, Yi Yang, Shengxin Zha, Gourab Kundu, Matt
Feiszli, Zheng Shou
- Abstract要約: 単一フレームの監視は、低いアノテーションのオーバーヘッドを維持しながら、追加の時間的アクション信号を導入します。
本研究では,SF-Netと呼ばれる単一フレーム監視システムを提案する。
SF-Netは、セグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から、最先端の弱い教師付き手法を大幅に改善する。
- 参考スコア(独自算出の注目度): 60.202516362976645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study an intermediate form of supervision, i.e.,
single-frame supervision, for temporal action localization (TAL). To obtain the
single-frame supervision, the annotators are asked to identify only a single
frame within the temporal window of an action. This can significantly reduce
the labor cost of obtaining full supervision which requires annotating the
action boundary. Compared to the weak supervision that only annotates the
video-level label, the single-frame supervision introduces extra temporal
action signals while maintaining low annotation overhead. To make full use of
such single-frame supervision, we propose a unified system called SF-Net.
First, we propose to predict an actionness score for each video frame. Along
with a typical category score, the actionness score can provide comprehensive
information about the occurrence of a potential action and aid the temporal
boundary refinement during inference. Second, we mine pseudo action and
background frames based on the single-frame annotations. We identify pseudo
action frames by adaptively expanding each annotated single frame to its
nearby, contextual frames and we mine pseudo background frames from all the
unannotated frames across multiple videos. Together with the ground-truth
labeled frames, these pseudo-labeled frames are further used for training the
classifier. In extensive experiments on THUMOS14, GTEA, and BEOID, SF-Net
significantly improves upon state-of-the-art weakly-supervised methods in terms
of both segment localization and single-frame localization. Notably, SF-Net
achieves comparable results to its fully-supervised counterpart which requires
much more resource intensive annotations. The code is available at
https://github.com/Flowerfan/SF-Net.
- Abstract(参考訳): 本稿では,時間的行動ローカライゼーション(TAL)のための中間形態の監視,すなわち単一フレームの監督について検討する。
単一フレームの監視を得るために、アノテータはアクションの時間ウィンドウ内の1つのフレームのみを特定するように要求される。
これにより、アクションバウンダリのアノテートを必要とする完全な監督を得るための労力コストを大幅に削減することができる。
ビデオレベルのラベルのみをアノテートする弱い監視に比べて、単一フレームの監督は、低いアノテーションオーバーヘッドを維持しながら、追加の時間的アクション信号を導入する。
このような単一フレーム監視をフル活用するために,SF-Netと呼ばれる統一システムを提案する。
まず,各映像フレームの動作性スコアを予測することを提案する。
典型的なカテゴリスコアとともに、アクションネススコアは潜在的なアクションの発生に関する包括的な情報を提供し、推論中の時間境界の洗練を支援することができる。
次に、シングルフレームアノテーションに基づいて擬似アクションとバックグラウンドフレームをマイニングする。
我々は,各注釈付きシングルフレームをその近傍のコンテキストフレームに適応的に拡張することで,擬似行動フレームを同定し,複数のビデオにまたがるすべての注釈付きフレームから擬似背景フレームを抽出する。
接地ラベル付きフレームと共に、これらの擬似ラベル付きフレームは、さらに分類器の訓練に使用される。
THUMOS14、GTEA、BEOIDに関する広範な実験において、SF-Netはセグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から最先端の弱い教師付き手法を大幅に改善した。
特にsf-netは、リソース集約的なアノテーションを必要とする完全に監督されたものと同等の結果を達成している。
コードはhttps://github.com/flowerfan/sf-netで入手できる。
関連論文リスト
- Rethinking the Video Sampling and Reasoning Strategies for Temporal
Sentence Grounding [64.99924160432144]
時間的文グラウンドディング(TSG)は、特定のセグメントの時間的境界を文問合せによってビデオから識別することを目的としている。
本稿では,TSG のための新しいサイムズサンプリング・推論ネットワーク (SSRN) を提案し,シムズサンプリング機構を導入し,追加のコンテキストフレームを生成する。
論文 参考訳(メタデータ) (2023-01-02T03:38:22Z) - A Generalized & Robust Framework For Timestamp Supervision in Temporal
Action Segmentation [79.436224998992]
時間的アクションセグメンテーションでは、Timestampの監督はビデオシーケンスごとにわずかにラベル付きフレームを必要とする。
本稿では,未ラベルフレームのラベルの不確実性を利用した期待最大化に基づく新しい手法を提案する。
提案手法はSOTA結果を生成し,複数のメトリクスやデータセットの完全教師付き設定を超えている。
論文 参考訳(メタデータ) (2022-07-20T18:30:48Z) - Context Sensing Attention Network for Video-based Person
Re-identification [20.865710012336724]
ビデオフレームに様々な干渉が存在するため、ReID(Video-based person re-identification)は困難である。
近年のアプローチでは、時間的集約戦略を用いてこの問題に対処している。
フレームの特徴抽出と時間的集約の両方を改善する新しいコンテキストセンシング注意ネットワーク(CSA-Net)を提案する。
論文 参考訳(メタデータ) (2022-07-06T12:48:27Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - No frame left behind: Full Video Action Recognition [26.37329995193377]
我々は全映像の動作認識を提案し,全映像のフレームを考察する。
まず、時間次元に沿って全てのフレームアクティベーションをクラスタ化する。
次に、時間的にクラスタ内のフレームをより少ない数の表現に集約する。
論文 参考訳(メタデータ) (2021-03-29T07:44:28Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。