論文の概要: Motion Aware Self-Supervision for Generic Event Boundary Detection
- arxiv url: http://arxiv.org/abs/2210.05574v2
- Date: Wed, 12 Oct 2022 09:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 11:49:43.292369
- Title: Motion Aware Self-Supervision for Generic Event Boundary Detection
- Title(参考訳): ジェネリックイベント境界検出のための運動認識自己スーパービジョン
- Authors: Ayush K. Rai, Tarun Krishna, Julia Dietlmeier, Kevin McGuinness, Alan
F. Smeaton, Noel E. O'Connor
- Abstract要約: ジェネリックイベント境界検出(GEBD)は、人間によって自然に認識されるビデオのモーメントを、ジェネリックおよび分類なしのイベント境界として検出することを目的としている。
既存のアプローチは、アーキテクチャ設計の選択の観点から非常に複雑で洗練されたパイプラインを含んでいる。
我々は,GEBDタスクにおける空間的・時間的多様性に対処するため,簡便で効果的な自己教師付き手法を再検討し,異なる動作特徴学習モジュールで拡張する。
- 参考スコア(独自算出の注目度): 14.637933739152315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of Generic Event Boundary Detection (GEBD) aims to detect moments in
videos that are naturally perceived by humans as generic and taxonomy-free
event boundaries. Modeling the dynamically evolving temporal and spatial
changes in a video makes GEBD a difficult problem to solve. Existing approaches
involve very complex and sophisticated pipelines in terms of architectural
design choices, hence creating a need for more straightforward and simplified
approaches. In this work, we address this issue by revisiting a simple and
effective self-supervised method and augment it with a differentiable motion
feature learning module to tackle the spatial and temporal diversities in the
GEBD task. We perform extensive experiments on the challenging Kinetics-GEBD
and TAPOS datasets to demonstrate the efficacy of the proposed approach
compared to the other self-supervised state-of-the-art methods. We also show
that this simple self-supervised approach learns motion features without any
explicit motion-specific pretext task.
- Abstract(参考訳): ジェネリックイベント境界検出(GEBD)の課題は、人間によって自然に認識されるビデオのモーメントを、ジェネリックおよび分類のないイベント境界として検出することである。
ビデオ中の時間的変化と空間的変化を動的にモデル化することは、GEBDの解決を難しくする。
既存のアプローチには、アーキテクチャ設計の選択の観点から非常に複雑で洗練されたパイプラインが含まれます。
本稿では,GEBDタスクにおける空間的・時間的多様性に対処するため,単純で効果的な自己監督手法を再検討し,異なる動作特徴学習モジュールで拡張することでこの問題に対処する。
我々は,提案手法の有効性を他の自己監視型手法と比較し,提案手法の有効性を実証するために,挑戦的なkinetics-gebdとtaposデータセットに関する広範な実験を行った。
また,この単純な自己教師付きアプローチは,明示的な動作固有のプリテキストタスクを伴わずに動作特徴を学習できることを示す。
関連論文リスト
- Fine-grained Dynamic Network for Generic Event Boundary Detection [9.17191007695011]
そこで我々は,DyBDetという汎用イベント境界のための新しい動的パイプラインを提案する。
マルチエグジットネットワークアーキテクチャを導入することで、DyBDetは、異なるビデオスニペットへのアロケーションを自動的に学習する。
Kinetics-GEBD と TAPOS のデータセットに挑戦する実験では、動的戦略の採用が GEBD タスクに大きく貢献することを示した。
論文 参考訳(メタデータ) (2024-07-05T06:02:46Z) - Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method [63.49140028965778]
本稿では,視線,手,物間相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを紹介する。
これらの課題に対処するため,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。
また, GHO拡散のサンプリング段階におけるHOI-Manifold Guidanceを導入し, 生成した動きのきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-03-24T14:24:13Z) - FLD: Fourier Latent Dynamics for Structured Motion Representation and
Learning [19.491968038335944]
本研究では,周期的・準周期的な動きの時空間関係を抽出する自己教師付き構造表現生成手法を提案する。
我々の研究は、一般的な動き表現と学習アルゴリズムの今後の進歩への新たな可能性を開く。
論文 参考訳(メタデータ) (2024-02-21T13:59:21Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Guidance and Teaching Network for Video Salient Object Detection [38.22880271210646]
我々はGTNet(Guidance and Teaching Network)と呼ばれるシンプルだが効率的なアーキテクチャを提案する。
GTNetは、暗黙の指導と特徴レベルと意思決定レベルでの明示的な指導によって、効果的な空間的・時間的手がかりを駆除する。
この新しい学習戦略は、複雑な空間的時間的手がかりを分離し、異なるモダリティをまたいだ情報的手がかりをマッピングすることで満足な結果を得る。
論文 参考訳(メタデータ) (2021-05-21T03:25:38Z) - Sequential convolutional network for behavioral pattern extraction in
gait recognition [0.7874708385247353]
個人の歩行パターンを学習するための逐次畳み込みネットワーク(SCN)を提案する。
SCNでは、時系列の中間特徴写像を理解するために行動情報抽出器(BIE)を構築している。
SCNのマルチフレームアグリゲータは、モバイル3D畳み込み層を介して、長さが不確定なシーケンス上の機能統合を実行する。
論文 参考訳(メタデータ) (2021-04-23T08:44:10Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。