論文の概要: SegTAD: Precise Temporal Action Detection via Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2203.01542v1
- Date: Thu, 3 Mar 2022 06:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 16:15:34.998005
- Title: SegTAD: Precise Temporal Action Detection via Semantic Segmentation
- Title(参考訳): SegTAD:セマンティックセグメンテーションによる正確な時間的行動検出
- Authors: Chen Zhao, Merey Ramazanova, Mengmeng Xu, Bernard Ghanem
- Abstract要約: 意味的セグメンテーションの新しい視点で時間的行動検出のタスクを定式化する。
TADの1次元特性により、粗粒度検出アノテーションを細粒度セマンティックセマンティックアノテーションに無償で変換できる。
1Dセマンティックセグメンテーションネットワーク(1D-SSN)と提案検出ネットワーク(PDN)からなるエンドツーエンドフレームワークSegTADを提案する。
- 参考スコア(独自算出の注目度): 65.01826091117746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action detection (TAD) is an important yet challenging task in video
analysis. Most existing works draw inspiration from image object detection and
tend to reformulate it as a proposal generation - classification problem.
However, there are two caveats with this paradigm. First, proposals are not
equipped with annotated labels, which have to be empirically compiled, thus the
information in the annotations is not necessarily precisely employed in the
model training process. Second, there are large variations in the temporal
scale of actions, and neglecting this fact may lead to deficient representation
in the video features. To address these issues and precisely model temporal
action detection, we formulate the task of temporal action detection in a novel
perspective of semantic segmentation. Owing to the 1-dimensional property of
TAD, we are able to convert the coarse-grained detection annotations to
fine-grained semantic segmentation annotations for free. We take advantage of
them to provide precise supervision so as to mitigate the impact induced by the
imprecise proposal labels. We propose an end-to-end framework SegTAD composed
of a 1D semantic segmentation network (1D-SSN) and a proposal detection network
(PDN).
- Abstract(参考訳): 時間的行動検出(TAD)はビデオ解析において重要な課題である。
既存の作品の多くは、画像オブジェクト検出からインスピレーションを得ており、提案生成 - 分類問題として再編成する傾向がある。
しかし、このパラダイムには2つの注意点がある。
まず、提案には注釈付きラベルが備わっておらず、経験的コンパイルが必要となるため、アノテーションの情報は必ずしもモデルトレーニングプロセスで正確に使用されるわけではない。
第二に、アクションの時間スケールには大きなバリエーションがあり、この事実を無視するとビデオの特徴が不足する可能性がある。
これらの問題に対処し、正確に時間的行動検出をモデル化するために、意味セグメンテーションの新しい視点で時間的行動検出のタスクを定式化する。
tadの1次元的性質により,粗粒度検出アノテーションを細粒度セマンティックセグメンテーションアノテーションに無償で変換することができる。
我々は,提案ラベルの不正確さによる影響を緩和するために,適切な監督を行う。
本稿では,1次元セマンティックセグメンテーションネットワーク (1D-SSN) と提案検出ネットワーク (PDN) から構成されるエンドツーエンドフレームワークSegTADを提案する。
関連論文リスト
- DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Relaxed Transformer Decoders for Direct Action Proposal Generation [30.516462193231888]
本稿では、直接アクション提案生成のためのシンプルでエンドツーエンドの学習可能なフレームワーク(RTD-Net)を提案する。
時間と空間の視覚的相違に対処するため、元の変換器検出フレームワーク(DETR)に対して3つの重要な改善を行った。
THUMOS14とActivityNet-1.3ベンチマークの実験では、RTD-Netの有効性が示されている。
論文 参考訳(メタデータ) (2021-02-03T06:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。