論文の概要: RCL: Recurrent Continuous Localization for Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2203.07112v1
- Date: Mon, 14 Mar 2022 13:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 23:56:57.546372
- Title: RCL: Recurrent Continuous Localization for Temporal Action Detection
- Title(参考訳): RCL: 時間的行動検出のための連続的局所化
- Authors: Qiang Wang, Yanhao Zhang, Yun Zheng, Pan Pan
- Abstract要約: 最先端の手法は主に密度の高いアンカー方式に依存しており、アンカーは離散化されたグリッドを持つ時間領域上で一様にサンプリングされる。
本稿では、完全連続的アンカー表現を学習するRCL(Recurrent Continuous Localization)を紹介する。
RCLはTHUMOS14では52.92% mAP@0.5、ActivtiyNet v1.3では37.65% mAPを達成する。
- 参考スコア(独自算出の注目度): 33.05225035315206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal representation is the cornerstone of modern action detection
techniques. State-of-the-art methods mostly rely on a dense anchoring scheme,
where anchors are sampled uniformly over the temporal domain with a discretized
grid, and then regress the accurate boundaries. In this paper, we revisit this
foundational stage and introduce Recurrent Continuous Localization (RCL), which
learns a fully continuous anchoring representation. Specifically, the proposed
representation builds upon an explicit model conditioned with video embeddings
and temporal coordinates, which ensure the capability of detecting segments
with arbitrary length. To optimize the continuous representation, we develop an
effective scale-invariant sampling strategy and recurrently refine the
prediction in subsequent iterations. Our continuous anchoring scheme is fully
differentiable, allowing to be seamlessly integrated into existing detectors,
e.g., BMN and G-TAD. Extensive experiments on two benchmarks demonstrate that
our continuous representation steadily surpasses other discretized counterparts
by ~2% mAP. As a result, RCL achieves 52.92% mAP@0.5 on THUMOS14 and 37.65% mAP
on ActivtiyNet v1.3, outperforming all existing single-model detectors.
- Abstract(参考訳): 時間表現は現代の行動検出技術の基礎である。
最先端の手法は主に密度の高いアンカー方式に依存しており、アンカーは離散化されたグリッドを持つ時間領域上で一様にサンプリングされ、正確な境界を回帰する。
本稿では,この基礎的段階を振り返り,完全連続的なアンカー表現を学習するrcl(recurrent continuous localization)を導入する。
具体的には,映像埋め込みと時間座標を条件とした明示的なモデルを構築し,任意の長さのセグメントを検出できるようにする。
連続表現を最適化するために、効果的なスケール不変サンプリング戦略を開発し、その後のイテレーションで予測を精錬する。
我々の連続的なアンカー方式は完全に微分可能であり、BMNやG-TADといった既存の検出器にシームレスに統合できる。
2つのベンチマークに関する広範囲な実験は、我々の連続表現が他の離散化表現を2%のマップで着実に上回っていることを示している。
その結果、RTLはTHUMOS14では52.92% mAP@0.5、ActivtiyNet v1.3では37.65% mAPを達成した。
関連論文リスト
- Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。
本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。
我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文 参考訳(メタデータ) (2024-10-03T09:07:13Z) - Revisiting the Temporal Modeling in Spatio-Temporal Predictive Learning
under A Unified View [73.73667848619343]
UTEP(Unified S-Temporal Predictive Learning)は,マイクロテンポラリスケールとマクロテンポラリスケールを統合した再帰的および再帰的フリーな手法を再構築する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2023-10-09T16:17:42Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Intensity Profile Projection: A Framework for Continuous-Time
Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。
このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。
さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T15:38:25Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - An Unsupervised Short- and Long-Term Mask Representation for
Multivariate Time Series Anomaly Detection [2.387411589813086]
本稿では,教師なし短時間・長期マスク表現学習(SLMR)に基づく異常検出手法を提案する。
実験により,本手法の性能は,実世界の3つのデータセットにおいて,他の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-19T09:34:11Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Contrastive Conditional Neural Processes [45.70735205041254]
条件付きニューラル・プロセス(CNP)は、メタラーニング環境下でのプロセスの機能に近い確率的推論でニューラルネットワークをブリッジする。
2つの補助的コントラスト分岐が階層的に設定される。すなわち、インストラクテーション時間的コントラスト学習(tt TCL)とクロスストラクテーション関数コントラスト学習(tt FCL)である。
実験により、tt TCLは観測の高レベルの抽象化を捉えるのに対し、tt FCLは基底関数の同定に役立ち、より効率的な表現を提供することを示す。
論文 参考訳(メタデータ) (2022-03-08T10:08:45Z) - Imputing Missing Observations with Time Sliced Synthetic Minority
Oversampling Technique [0.3973560285628012]
本稿では,データセット内の各サンプルに対して均一な不規則な時系列を構成することを目的とした,単純かつ斬新な時系列計算手法を提案する。
我々は、観測時間の重複しないビン(「スライス」と呼ばれる)の中間点で定義される格子を固定し、各サンプルが所定の時間にすべての特徴に対して値を持つことを保証する。
これにより、完全に欠落した観察をインプットし、データ全体の時系列の均一な分類を可能にし、特別な場合には個々の欠落した特徴をインプットすることができる。
論文 参考訳(メタデータ) (2022-01-14T19:23:24Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。