論文の概要: Videogenic: Identifying Highlight Moments in Videos with Professional Photographs as a Prior
- arxiv url: http://arxiv.org/abs/2211.12493v2
- Date: Tue, 25 Jun 2024 13:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 23:19:26.952058
- Title: Videogenic: Identifying Highlight Moments in Videos with Professional Photographs as a Prior
- Title(参考訳): プロのフォトグラファーが優先する映像のハイライトを識別するビデオジェネリック
- Authors: David Chuan-En Lin, Fabian Caba Heilbron, Joon-Young Lee, Oliver Wang, Nikolas Martelaro,
- Abstract要約: ビデオジェニック(Videogenic)は、さまざまなドメインに対して、ドメイン固有のハイライトビデオを作成する技術である。
人間の評価研究において、CLIPに基づく検索と組み合わせた高品質な写真収集が、ビデオハイライトを見つけるための優れた先行候補となることを示す。
本研究は,映像編集者がより軽量な作業負荷,タスク完了時間短縮,ユーザビリティ向上を図り,映像編集支援にビデオジェネレータが有用であることを示すものである。
- 参考スコア(独自算出の注目度): 40.33947280761128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the challenge of extracting highlight moments from videos. To perform this task, we need to understand what constitutes a highlight for arbitrary video domains while at the same time being able to scale across different domains. Our key insight is that photographs taken by photographers tend to capture the most remarkable or photogenic moments of an activity. Drawing on this insight, we present Videogenic, a technique capable of creating domain-specific highlight videos for a diverse range of domains. In a human evaluation study (N=50), we show that a high-quality photograph collection combined with CLIP-based retrieval (which uses a neural network with semantic knowledge of images) can serve as an excellent prior for finding video highlights. In a within-subjects expert study (N=12), we demonstrate the usefulness of Videogenic in helping video editors create highlight videos with lighter workload, shorter task completion time, and better usability.
- Abstract(参考訳): 本稿では,映像からハイライトモーメントを抽出する課題について検討する。
このタスクを実行するには、任意のビデオドメインのハイライトを構成するものを理解すると同時に、異なるドメインにまたがってスケールできる必要がある。
私たちの重要な洞察は、写真家が撮影した写真は、ある活動で最も目立った、または、写真生成の瞬間を捉えやすいということです。
この知見に基づいて,さまざまなドメインを対象とした,ドメイン固有のハイライトビデオを作成するためのテクニックであるVideogenicを提案する。
人間の評価研究(N=50)において、CLIPに基づく検索(画像の意味的知識を持つニューラルネットワーク)と組み合わせた高品質な写真収集が、ビデオハイライトを見つけるための優れた先行候補となることを示す。
In-subjects expert study (N=12), we demonstrate the usefulness of Videogenic to help video editors create highlight video with lighter workload, short task completion time, and better usability。
関連論文リスト
- Unsupervised Video Highlight Detection by Learning from Audio and Visual Recurrence [13.2968942989609]
手動のアノテーションを不要にしながら、教師なしのビデオハイライト検出に重点を置いている。
クラスタリング手法により、ビデオの擬似カテゴリを特定し、各ビデオの擬似ハイライトスコアを計算する。
また、視覚的特徴を用いて、各ビデオの視覚的擬似ハイライトスコアも計算する。
論文 参考訳(メタデータ) (2024-07-18T23:09:14Z) - Deep video representation learning: a survey [4.9589745881431435]
近年,視覚データに対する逐次的特徴学習法が提案され,その特徴と欠点を比較して一般的なビデオ解析を行った。
ビデオ解析と理解を含むコンピュータビジョンタスクにおいて、ビデオの効果的な機能を構築することが根本的な問題である。
論文 参考訳(メタデータ) (2024-05-10T16:20:11Z) - Knowledge-enhanced Multi-perspective Video Representation Learning for
Scene Recognition [33.800842679024164]
我々は,映像シーン認識の課題に対処し,高レベルの映像表現を学習して映像シーンを分類することを目的とする。
既存の作品の多くは、時間的視点で視覚情報やテキスト情報のみからビデオのシーンを識別している。
複数の視点から映像表現をモデル化する新しい2ストリームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T04:37:10Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks [55.81577205593956]
イベントカメラはバイオインスパイアされたセンサーで、ピクセルごとの強度の変化を非同期に捉える。
深層学習(DL)はこの新興分野に導入され、その可能性のマイニングに活発な研究努力にインスピレーションを与えている。
論文 参考訳(メタデータ) (2023-02-17T14:19:28Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - TNT: Text-Conditioned Network with Transductive Inference for Few-Shot
Video Classification [26.12591949900602]
テキストベースのタスクコンディショナーを定式化し、ビデオの特徴を数ショットの学習タスクに適応させる。
本モデルでは,4つの挑戦的ベンチマークを用いて,数発の動画アクション分類における最先端性能を得る。
論文 参考訳(メタデータ) (2021-06-21T15:08:08Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。