論文の概要: Temporal and Contextual Transformer for Multi-Camera Editing of TV Shows
- arxiv url: http://arxiv.org/abs/2210.08737v1
- Date: Mon, 17 Oct 2022 04:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 17:42:41.031270
- Title: Temporal and Contextual Transformer for Multi-Camera Editing of TV Shows
- Title(参考訳): テレビ番組のマルチカメラ編集のための時間・文脈変換器
- Authors: Anyi Rao, Xuekun Jiang, Sichen Wang, Yuwei Guo, Zihao Liu, Bo Dai,
Long Pang, Xiaoyu Wu, Dahua Lin, Libiao Jin
- Abstract要約: まず、コンサート、スポーツゲーム、ガラショー、コンテストを含む4つの異なるシナリオを用いて、この設定に関する新しいベンチマークを収集する。
14時間編集されたビデオに貢献する88時間の生のビデオが含まれている。
歴史的ショットやその他の視点からのヒントを利用してショット遷移決定を行う新しいアプローチである時間的・文脈的変換器を提案する。
- 参考スコア(独自算出の注目度): 83.54243912535667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to choose an appropriate camera view among multiple cameras plays
a vital role in TV shows delivery. But it is hard to figure out the statistical
pattern and apply intelligent processing due to the lack of high-quality
training data. To solve this issue, we first collect a novel benchmark on this
setting with four diverse scenarios including concerts, sports games, gala
shows, and contests, where each scenario contains 6 synchronized tracks
recorded by different cameras. It contains 88-hour raw videos that contribute
to the 14-hour edited videos. Based on this benchmark, we further propose a new
approach temporal and contextual transformer that utilizes clues from
historical shots and other views to make shot transition decisions and predict
which view to be used. Extensive experiments show that our method outperforms
existing methods on the proposed multi-camera editing benchmark.
- Abstract(参考訳): 複数のカメラの中から適切なカメラビューを選択する能力は、テレビ番組の配信において重要な役割を果たす。
しかし、高品質なトレーニングデータがないため、統計的パターンを把握し、インテリジェントな処理を適用するのは難しい。
この問題を解決するために,我々はまず,コンサート,スポーツゲーム,ガラショー,コンテストを含む4つの異なるシナリオを用いて,この設定の新たなベンチマークを収集し,それぞれのシナリオに異なるカメラで記録された6つの同期トラックが含まれている。
14時間編集されたビデオにコントリビュートする88時間生ビデオが含まれている。
さらに,このベンチマークに基づいて,過去の写真やその他の視点からの手がかりを活用し,ショット遷移決定を行い,どの視点を使用するかを予測する新しい手法を提案する。
大規模な実験により,提案手法は,提案したマルチカメラ編集ベンチマークにおける既存手法よりも優れていた。
関連論文リスト
- A Multi-annotated and Multi-modal Dataset for Wide-angle Video Quality Assessment [68.17798591554637]
広角ビデオは、変形、露出、その他の歪みを引き起こす。
この欠陥は、主に広角ビデオのための特別なデータセットがないことに起因する。
マルチアノテートおよびマルチモーダル広角ビデオ品質評価データセットを構築した。
論文 参考訳(メタデータ) (2025-01-21T12:15:16Z) - MSG score: A Comprehensive Evaluation for Multi-Scene Video Generation [0.0]
本稿では,連続シナリオに基づくマルチシーンビデオの生成に必要なメトリクスについて述べる。
ビデオ生成では、単一の画像とは異なり、フレーム間の文字の動きは歪みや意図しない変化のような潜在的な問題を引き起こす。
本稿では,このプロセスを自動化するスコアベース評価ベンチマークを提案し,これらの複雑さをより客観的かつ効率的に評価する。
論文 参考訳(メタデータ) (2024-11-28T13:11:50Z) - Pseudo Dataset Generation for Out-of-Domain Multi-Camera View Recommendation [8.21260979799828]
本稿では,通常の動画を擬似ラベル付きマルチカメラビューレコメンデーションデータセットに変換することを提案する。
対象領域のビデオから派生した擬似ラベル付きデータセット上でモデルをトレーニングすることにより、対象領域におけるモデルの精度が68%向上する。
論文 参考訳(メタデータ) (2024-10-17T14:21:22Z) - Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。
カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。
IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - EventAid: Benchmarking Event-aided Image/Video Enhancement Algorithms
with Real-captured Hybrid Dataset [55.12137324648253]
イベントカメラは、ダイナミックレンジとセンサーの速度で従来のフレームベースの撮像センサーよりも有利な、新興のイメージング技術である。
本稿では,5つのイベント支援画像と映像強調タスクに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-13T15:42:04Z) - Replay: Multi-modal Multi-view Acted Videos for Casual Holography [76.49914880351167]
Replayは、社会的に対話する人間のマルチビュー、マルチモーダルビデオのコレクションである。
全体として、データセットには4000分以上の映像と700万のタイムスタンプ付き高解像度フレームが含まれている。
Replayデータセットには、新規ビュー合成、3D再構成、新規ビュー音響合成、人体と顔の分析、生成モデルの訓練など、多くの潜在的な応用がある。
論文 参考訳(メタデータ) (2023-07-22T12:24:07Z) - EVREAL: Towards a Comprehensive Benchmark and Analysis Suite for Event-based Video Reconstruction [16.432164340779266]
イベントカメラは、高ダイナミックレンジや最小モーションブラーといった従来のフレームベースのカメラよりも利点がある。
彼らの出力は、人間が容易に理解できないため、イベントストリームからの強度画像の再構成は、イベントベースのビジョンにおいて基本的なタスクとなる。
近年の深層学習に基づく手法は,イベントからの映像再構成において有望であることを示すものであるが,この問題はまだ完全には解決されていない。
論文 参考訳(メタデータ) (2023-04-30T09:28:38Z) - Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。
任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-03T15:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。