論文の概要: AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism
- arxiv url: http://arxiv.org/abs/2206.04888v1
- Date: Fri, 10 Jun 2022 05:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 00:22:15.496045
- Title: AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism
- Title(参考訳): AntPivot:階層型アテンション機構によるライブストリームハイライト検出
- Authors: Yang Zhao, Xuan Lin, Wenqiang Xu, Maozong Zheng, Zhengyong Liu, Zhou
Zhao
- Abstract要約: 本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
- 参考スコア(独自算出の注目度): 64.70568612993416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent days, streaming technology has greatly promoted the development in
the field of livestream. Due to the excessive length of livestream records,
it's quite essential to extract highlight segments with the aim of effective
reproduction and redistribution. Although there are lots of approaches proven
to be effective in the highlight detection for other modals, the challenges
existing in livestream processing, such as the extreme durations, large topic
shifts, much irrelevant information and so forth, heavily hamper the adaptation
and compatibility of these methods. In this paper, we formulate a new task
Livestream Highlight Detection, discuss and analyze the difficulties listed
above and propose a novel architecture AntPivot to solve this problem.
Concretely, we first encode the original data into multiple views and model
their temporal relations to capture clues in a hierarchical attention
mechanism. Afterwards, we try to convert the detection of highlight clips into
the search for optimal decision sequences and use the fully integrated
representations to predict the final results in a dynamic-programming
mechanism. Furthermore, we construct a fully-annotated dataset AntHighlight to
instantiate this task and evaluate the performance of our model. The extensive
experiments indicate the effectiveness and validity of our proposed method.
- Abstract(参考訳): 近年,ストリーミング技術はライブストリーム分野の発展を大いに促進している。
ライブストリーム記録の過剰な長さのため、効果的な再生と再配布を目的としてハイライトセグメントを抽出することが極めて重要である。
他のモーダルのハイライト検出に有効であることが証明されたアプローチはたくさんあるが、過度な時間、大きなトピックシフト、非常に無関係な情報など、ライブストリーム処理に存在する課題は、これらの手法の適応と互換性を著しく妨げている。
本稿では,新しいタスクのライブストリームハイライト検出を定式化し,上記の課題を議論・分析し,この問題を解決するための新しいアーキテクチャ antpivot を提案する。
具体的には、まず元のデータを複数のビューにエンコードし、その時間的関係をモデル化し、階層的な注意機構で手がかりを捉える。
その後、ハイライトクリップの検出を最適な決定シーケンスの探索に変換し、完全に統合された表現を用いて最終的な結果を動的プログラミング機構で予測する。
さらに、このタスクをインスタンス化し、モデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
その結果,提案手法の有効性と妥当性が示唆された。
関連論文リスト
- DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Motion Aware Self-Supervision for Generic Event Boundary Detection [14.637933739152315]
ジェネリックイベント境界検出(GEBD)は、人間によって自然に認識されるビデオのモーメントを、ジェネリックおよび分類なしのイベント境界として検出することを目的としている。
既存のアプローチは、アーキテクチャ設計の選択の観点から非常に複雑で洗練されたパイプラインを含んでいる。
我々は,GEBDタスクにおける空間的・時間的多様性に対処するため,簡便で効果的な自己教師付き手法を再検討し,異なる動作特徴学習モジュールで拡張する。
論文 参考訳(メタデータ) (2022-10-11T16:09:13Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - Video Anomaly Detection by Estimating Likelihood of Representations [21.879366166261228]
ビデオ異常は、モーション表現、オブジェクトのローカライゼーション、アクション認識など、多くのサブタスクを解決するため、困難なタスクである。
伝統的に、この課題に対する解決策は、これらの特徴の空間的接続を無視しながら、ビデオフレームとその低次元特徴のマッピングに焦点を当ててきた。
最近のソリューションでは、K-Meansのようなハードクラスタリング技術を用いてこれらの空間的接続を分析することや、潜伏した特徴を一般的な理解にマップするためにニューラルネットワークを適用することに焦点を当てている。
潜在特徴空間における映像異常を解決するために,このタスクを密度推定問題に転送するための深い確率モデルを提案する。
論文 参考訳(メタデータ) (2020-12-02T19:16:22Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。