Fugu-MT 論文翻訳(概要): Temporal and Contextual Transformer for Multi-Camera Editing of TV Shows

論文の概要: Temporal and Contextual Transformer for Multi-Camera Editing of TV Shows

arxiv url: http://arxiv.org/abs/2210.08737v1
Date: Mon, 17 Oct 2022 04:11:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-18 17:42:41.031270
Title: Temporal and Contextual Transformer for Multi-Camera Editing of TV Shows
Title（参考訳）: テレビ番組のマルチカメラ編集のための時間・文脈変換器
Authors: Anyi Rao, Xuekun Jiang, Sichen Wang, Yuwei Guo, Zihao Liu, Bo Dai, Long Pang, Xiaoyu Wu, Dahua Lin, Libiao Jin
Abstract要約: まず、コンサート、スポーツゲーム、ガラショー、コンテストを含む4つの異なるシナリオを用いて、この設定に関する新しいベンチマークを収集する。 14時間編集されたビデオに貢献する88時間の生のビデオが含まれている。歴史的ショットやその他の視点からのヒントを利用してショット遷移決定を行う新しいアプローチである時間的・文脈的変換器を提案する。
参考スコア（独自算出の注目度）: 83.54243912535667
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability to choose an appropriate camera view among multiple cameras plays a vital role in TV shows delivery. But it is hard to figure out the statistical pattern and apply intelligent processing due to the lack of high-quality training data. To solve this issue, we first collect a novel benchmark on this setting with four diverse scenarios including concerts, sports games, gala shows, and contests, where each scenario contains 6 synchronized tracks recorded by different cameras. It contains 88-hour raw videos that contribute to the 14-hour edited videos. Based on this benchmark, we further propose a new approach temporal and contextual transformer that utilizes clues from historical shots and other views to make shot transition decisions and predict which view to be used. Extensive experiments show that our method outperforms existing methods on the proposed multi-camera editing benchmark.
Abstract（参考訳）: 複数のカメラの中から適切なカメラビューを選択する能力は、テレビ番組の配信において重要な役割を果たす。しかし、高品質なトレーニングデータがないため、統計的パターンを把握し、インテリジェントな処理を適用するのは難しい。この問題を解決するために,我々はまず,コンサート,スポーツゲーム,ガラショー,コンテストを含む4つの異なるシナリオを用いて,この設定の新たなベンチマークを収集し,それぞれのシナリオに異なるカメラで記録された6つの同期トラックが含まれている。 14時間編集されたビデオにコントリビュートする88時間生ビデオが含まれている。さらに,このベンチマークに基づいて,過去の写真やその他の視点からの手がかりを活用し,ショット遷移決定を行い,どの視点を使用するかを予測する新しい手法を提案する。大規模な実験により,提案手法は,提案したマルチカメラ編集ベンチマークにおける既存手法よりも優れていた。

関連論文リスト

CamMimic: Zero-Shot Image To Camera Motion Personalized Video Generation Using Diffusion Models [47.65379612084075]
CamMimicは、所定のリファレンスビデオで観察されたカメラモーションを、ユーザの選択したシーンにシームレスに転送するように設計されている。非関連シーン間のカメラの動き伝達を評価するための確立された指標が存在しないため,CameraScoreを提案する。
論文参考訳（メタデータ） (2025-04-13T08:04:11Z)
MSG score: A Comprehensive Evaluation for Multi-Scene Video Generation [0.0]
本稿では,連続シナリオに基づくマルチシーンビデオの生成に必要なメトリクスについて述べる。ビデオ生成では、単一の画像とは異なり、フレーム間の文字の動きは歪みや意図しない変化のような潜在的な問題を引き起こす。本稿では,このプロセスを自動化するスコアベース評価ベンチマークを提案し,これらの複雑さをより客観的かつ効率的に評価する。
論文参考訳（メタデータ） (2024-11-28T13:11:50Z)
Pseudo Dataset Generation for Out-of-Domain Multi-Camera View Recommendation [8.21260979799828]
本稿では,通常の動画を擬似ラベル付きマルチカメラビューレコメンデーションデータセットに変換することを提案する。対象領域のビデオから派生した擬似ラベル付きデータセット上でモデルをトレーニングすることにより、対象領域におけるモデルの精度が68%向上する。
論文参考訳（メタデータ） (2024-10-17T14:21:22Z)
Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。 IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文参考訳（メタデータ） (2024-09-11T08:36:49Z)
EventAid: Benchmarking Event-aided Image/Video Enhancement Algorithms with Real-captured Hybrid Dataset [55.12137324648253]
イベントカメラは、ダイナミックレンジとセンサーの速度で従来のフレームベースの撮像センサーよりも有利な、新興のイメージング技術である。本稿では,5つのイベント支援画像と映像強調タスクに焦点を当てる。
論文参考訳（メタデータ） (2023-12-13T15:42:04Z)
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文参考訳（メタデータ） (2023-10-31T17:58:17Z)
Replay: Multi-modal Multi-view Acted Videos for Casual Holography [76.49914880351167]
Replayは、社会的に対話する人間のマルチビュー、マルチモーダルビデオのコレクションである。全体として、データセットには4000分以上の映像と700万のタイムスタンプ付き高解像度フレームが含まれている。 Replayデータセットには、新規ビュー合成、3D再構成、新規ビュー音響合成、人体と顔の分析、生成モデルの訓練など、多くの潜在的な応用がある。
論文参考訳（メタデータ） (2023-07-22T12:24:07Z)
EVREAL: Towards a Comprehensive Benchmark and Analysis Suite for Event-based Video Reconstruction [16.432164340779266]
イベントカメラは、高ダイナミックレンジや最小モーションブラーといった従来のフレームベースのカメラよりも利点がある。彼らの出力は、人間が容易に理解できないため、イベントストリームからの強度画像の再構成は、イベントベースのビジョンにおいて基本的なタスクとなる。近年の深層学習に基づく手法は,イベントからの映像再構成において有望であることを示すものであるが,この問題はまだ完全には解決されていない。
論文参考訳（メタデータ） (2023-04-30T09:28:38Z)
Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文参考訳（メタデータ） (2022-05-03T15:03:44Z)
Learning to Deblur and Generate High Frame Rate Video with an Event Camera [0.0]
イベントカメラは、高速なシーンを記録する際に、動きのぼやけに悩まされない。従来型のカメラの難読化タスクを、イベントによって指示され、残留学習タスクとなるように定式化する。本稿では,デブロアリングと高フレームレートビデオ生成タスクを効果的に学習するネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-03-02T13:02:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。