論文の概要: Temporal and Contextual Transformer for Multi-Camera Editing of TV Shows
- arxiv url: http://arxiv.org/abs/2210.08737v1
- Date: Mon, 17 Oct 2022 04:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 17:42:41.031270
- Title: Temporal and Contextual Transformer for Multi-Camera Editing of TV Shows
- Title(参考訳): テレビ番組のマルチカメラ編集のための時間・文脈変換器
- Authors: Anyi Rao, Xuekun Jiang, Sichen Wang, Yuwei Guo, Zihao Liu, Bo Dai,
Long Pang, Xiaoyu Wu, Dahua Lin, Libiao Jin
- Abstract要約: まず、コンサート、スポーツゲーム、ガラショー、コンテストを含む4つの異なるシナリオを用いて、この設定に関する新しいベンチマークを収集する。
14時間編集されたビデオに貢献する88時間の生のビデオが含まれている。
歴史的ショットやその他の視点からのヒントを利用してショット遷移決定を行う新しいアプローチである時間的・文脈的変換器を提案する。
- 参考スコア(独自算出の注目度): 83.54243912535667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to choose an appropriate camera view among multiple cameras plays
a vital role in TV shows delivery. But it is hard to figure out the statistical
pattern and apply intelligent processing due to the lack of high-quality
training data. To solve this issue, we first collect a novel benchmark on this
setting with four diverse scenarios including concerts, sports games, gala
shows, and contests, where each scenario contains 6 synchronized tracks
recorded by different cameras. It contains 88-hour raw videos that contribute
to the 14-hour edited videos. Based on this benchmark, we further propose a new
approach temporal and contextual transformer that utilizes clues from
historical shots and other views to make shot transition decisions and predict
which view to be used. Extensive experiments show that our method outperforms
existing methods on the proposed multi-camera editing benchmark.
- Abstract(参考訳): 複数のカメラの中から適切なカメラビューを選択する能力は、テレビ番組の配信において重要な役割を果たす。
しかし、高品質なトレーニングデータがないため、統計的パターンを把握し、インテリジェントな処理を適用するのは難しい。
この問題を解決するために,我々はまず,コンサート,スポーツゲーム,ガラショー,コンテストを含む4つの異なるシナリオを用いて,この設定の新たなベンチマークを収集し,それぞれのシナリオに異なるカメラで記録された6つの同期トラックが含まれている。
14時間編集されたビデオにコントリビュートする88時間生ビデオが含まれている。
さらに,このベンチマークに基づいて,過去の写真やその他の視点からの手がかりを活用し,ショット遷移決定を行い,どの視点を使用するかを予測する新しい手法を提案する。
大規模な実験により,提案手法は,提案したマルチカメラ編集ベンチマークにおける既存手法よりも優れていた。
関連論文リスト
- Pseudo Dataset Generation for Out-of-Domain Multi-Camera View Recommendation [8.21260979799828]
本稿では,通常の動画を擬似ラベル付きマルチカメラビューレコメンデーションデータセットに変換することを提案する。
対象領域のビデオから派生した擬似ラベル付きデータセット上でモデルをトレーニングすることにより、対象領域におけるモデルの精度が68%向上する。
論文 参考訳(メタデータ) (2024-10-17T14:21:22Z) - Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。
カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。
IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - EventAid: Benchmarking Event-aided Image/Video Enhancement Algorithms
with Real-captured Hybrid Dataset [55.12137324648253]
イベントカメラは、ダイナミックレンジとセンサーの速度で従来のフレームベースの撮像センサーよりも有利な、新興のイメージング技術である。
本稿では,5つのイベント支援画像と映像強調タスクに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-13T15:42:04Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Replay: Multi-modal Multi-view Acted Videos for Casual Holography [76.49914880351167]
Replayは、社会的に対話する人間のマルチビュー、マルチモーダルビデオのコレクションである。
全体として、データセットには4000分以上の映像と700万のタイムスタンプ付き高解像度フレームが含まれている。
Replayデータセットには、新規ビュー合成、3D再構成、新規ビュー音響合成、人体と顔の分析、生成モデルの訓練など、多くの潜在的な応用がある。
論文 参考訳(メタデータ) (2023-07-22T12:24:07Z) - EVREAL: Towards a Comprehensive Benchmark and Analysis Suite for Event-based Video Reconstruction [16.432164340779266]
イベントカメラは、高ダイナミックレンジや最小モーションブラーといった従来のフレームベースのカメラよりも利点がある。
彼らの出力は、人間が容易に理解できないため、イベントストリームからの強度画像の再構成は、イベントベースのビジョンにおいて基本的なタスクとなる。
近年の深層学習に基づく手法は,イベントからの映像再構成において有望であることを示すものであるが,この問題はまだ完全には解決されていない。
論文 参考訳(メタデータ) (2023-04-30T09:28:38Z) - Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。
任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-03T15:03:44Z) - Learning to Deblur and Generate High Frame Rate Video with an Event
Camera [0.0]
イベントカメラは、高速なシーンを記録する際に、動きのぼやけに悩まされない。
従来型のカメラの難読化タスクを、イベントによって指示され、残留学習タスクとなるように定式化する。
本稿では,デブロアリングと高フレームレートビデオ生成タスクを効果的に学習するネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-02T13:02:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。