論文の概要: Learning Pixel-Level Distinctions for Video Highlight Detection
- arxiv url: http://arxiv.org/abs/2204.04615v1
- Date: Sun, 10 Apr 2022 06:41:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 16:03:40.281646
- Title: Learning Pixel-Level Distinctions for Video Highlight Detection
- Title(参考訳): ビデオハイライト検出のための画素レベル判別の学習
- Authors: Fanyue Wei, Biao Wang, Tiezheng Ge, Yuning Jiang, Wen Li, Lixin Duan
- Abstract要約: 我々は,ビデオハイライト検出を改善するために,画素レベルの区別を学習することを提案する。
このピクセルレベルの区別は、あるビデオの各ピクセルが興味深いセクションに属しているかどうかを示す。
画素レベルの区別を推定するために,エンコーダ・デコーダネットワークを設計する。
- 参考スコア(独自算出の注目度): 39.23271866827123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of video highlight detection is to select the most attractive
segments from a long video to depict the most interesting parts of the video.
Existing methods typically focus on modeling relationship between different
video segments in order to learning a model that can assign highlight scores to
these segments; however, these approaches do not explicitly consider the
contextual dependency within individual segments. To this end, we propose to
learn pixel-level distinctions to improve the video highlight detection. This
pixel-level distinction indicates whether or not each pixel in one video
belongs to an interesting section. The advantages of modeling such fine-level
distinctions are two-fold. First, it allows us to exploit the temporal and
spatial relations of the content in one video, since the distinction of a pixel
in one frame is highly dependent on both the content before this frame and the
content around this pixel in this frame. Second, learning the pixel-level
distinction also gives a good explanation to the video highlight task regarding
what contents in a highlight segment will be attractive to people. We design an
encoder-decoder network to estimate the pixel-level distinction, in which we
leverage the 3D convolutional neural networks to exploit the temporal context
information, and further take advantage of the visual saliency to model the
spatial distinction. State-of-the-art performance on three public benchmarks
clearly validates the effectiveness of our framework for video highlight
detection.
- Abstract(参考訳): ビデオハイライト検出の目的は、長いビデオから最も魅力的なセグメントを選択し、ビデオの最も興味深い部分を描くことだ。
既存の手法は通常、各セグメントにハイライトスコアを割り当てるモデルを学ぶために、異なるビデオセグメント間の関係をモデル化することに焦点を当てるが、これらの手法は個々のセグメント内のコンテキスト依存を明示的に考慮していない。
この目的のために,映像ハイライト検出を改善するために,画素レベルの区別を学ぶことを提案する。
このピクセルレベルの区別は、あるビデオの各ピクセルが興味深いセクションに属しているかどうかを示す。
このような微妙な区別をモデル化する利点は2つある。
まず、このフレームの前のコンテンツとこのフレームの周りのコンテンツの両方に、一フレーム内のピクセルの区別が強く依存するため、一つのビデオにおけるコンテンツの時間的・空間的関係を利用することができる。
第2に、ピクセルレベルの区別を学ぶことで、ハイライトセグメントのどのコンテンツが人々を惹きつけるかに関するビデオハイライトタスクのよい説明が得られます。
本研究では,3次元畳み込みニューラルネットワークを活用し,時間的文脈情報を利用するエンコーダ・デコーダネットワークの設計を行い,さらに,視覚的サリエンシーを利用して空間的識別をモデル化する。
3つの公開ベンチマークにおける最先端のパフォーマンスは、ビデオハイライト検出のためのフレームワークの有効性を明確に検証する。
関連論文リスト
- Learning Fine-Grained Features for Pixel-wise Video Correspondences [13.456993858078514]
画素ワイド対応を確立するための学習機能の問題に対処する。
光フローと自己教師付き特徴学習によってモチベーションを得るとともに、ラベル付き合成ビデオだけでなく、ラベル付き実世界のビデオも活用することを提案する。
一連の対応型タスクに対する実験結果から,提案手法は最先端のライバルよりも精度と効率が優れていることが示された。
論文 参考訳(メタデータ) (2023-08-06T07:27:17Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Cross-category Video Highlight Detection via Set-based Learning [55.49267044910344]
本稿では,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。
対象とするカテゴリビデオの区別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴を学習する。
さまざまなカテゴリのハイライト検出タスクにおいて、一般的な5つのUnsupervised Domain Adaptation (UDA)アルゴリズムより優れています。
論文 参考訳(メタデータ) (2021-08-26T13:06:47Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - A Multi-modal Deep Learning Model for Video Thumbnail Selection [0.0]
良いサムネイルは、視聴者の注意を引くと同時に、ビデオの内容を最大限に表現するフレームであるべきです。
本稿では,映像のタイトル,説明,音声を含むコンテンツの定義を拡張し,これらのモダリティによって提供される情報を選択モデルで活用する。
我々の知る限りでは、我々はビデオサムネイルを選択するためのマルチモーダル深層学習モデルを提案しており、これは以前のState-of-The-Artモデルに勝っている。
論文 参考訳(メタデータ) (2020-12-31T21:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。