論文の概要: Reference-based Restoration of Digitized Analog Videotapes
- arxiv url: http://arxiv.org/abs/2310.14926v2
- Date: Fri, 3 Nov 2023 09:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 19:58:59.880720
- Title: Reference-based Restoration of Digitized Analog Videotapes
- Title(参考訳): ディジタルアナログビデオテープのレファレンスベース復元
- Authors: Lorenzo Agnolucci, Leonardo Galteri, Marco Bertini, Alberto Del Bimbo
- Abstract要約: デジタルアナログビデオテープ(TAPE)の再作成のための参照ベースアプローチを提案する。
ゼロショットアーティファクト検出にCLIPを活用し、異なるアーティファクトを記述するテキストプロンプトを通じて、各ビデオの最もクリーンなフレームを識別する。
実世界のビデオにおける真実の欠如に対処するため、アナログビデオテープによく見られるアーティファクトによく似た、ビデオの合成データセットを作成します。
- 参考スコア(独自算出の注目度): 28.773037051085318
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Analog magnetic tapes have been the main video data storage device for
several decades. Videos stored on analog videotapes exhibit unique degradation
patterns caused by tape aging and reader device malfunctioning that are
different from those observed in film and digital video restoration tasks. In
this work, we present a reference-based approach for the resToration of
digitized Analog videotaPEs (TAPE). We leverage CLIP for zero-shot artifact
detection to identify the cleanest frames of each video through textual prompts
describing different artifacts. Then, we select the clean frames most similar
to the input ones and employ them as references. We design a transformer-based
Swin-UNet network that exploits both neighboring and reference frames via our
Multi-Reference Spatial Feature Fusion (MRSFF) blocks. MRSFF blocks rely on
cross-attention and attention pooling to take advantage of the most useful
parts of each reference frame. To address the absence of ground truth in
real-world videos, we create a synthetic dataset of videos exhibiting artifacts
that closely resemble those commonly found in analog videotapes. Both
quantitative and qualitative experiments show the effectiveness of our approach
compared to other state-of-the-art methods. The code, the model, and the
synthetic dataset are publicly available at https://github.com/miccunifi/TAPE.
- Abstract(参考訳): アナログ磁気テープは、数十年にわたって主要なビデオデータストレージデバイスであった。
アナログビデオテープに保存されたビデオは、フィルムやデジタルビデオの復元作業で見られたものと異なるテープエイジングやリーダー装置の故障によって引き起こされる独特の劣化パターンを示す。
本稿では,デジタルアナログビデオタペス(TAPE)の再作成のための参照ベースアプローチを提案する。
ゼロショットアーティファクト検出にCLIPを活用し、異なるアーティファクトを記述するテキストプロンプトを通じて、各ビデオの最もクリーンなフレームを識別する。
次に,入力フレームに最もよく似たクリーンフレームを選択し,参照として利用する。
我々は、マルチリファレンス空間特徴融合(mrsff)ブロックを介して隣り合うフレームと参照フレームの両方を利用するトランスフォーマティブベースのswin-unetネットワークを設計する。
MRSFFブロックは、各参照フレームの最も有用な部分を活用するために、クロスアテンションとアテンションプールに依存している。
実世界のビデオにおける真実の欠如に対処するため、アナログビデオテープによく見られるアーティファクトによく似ているビデオの合成データセットを作成します。
定量的および定性的な実験は,我々のアプローチが他の最先端手法と比較して有効であることを示している。
コード、モデル、合成データセットはhttps://github.com/miccunifi/TAPEで公開されている。
関連論文リスト
- Pre-training for Action Recognition with Automatically Generated Fractal Datasets [23.686476742398973]
本稿では,短い合成ビデオクリップの大規模データセットを自動生成する手法を提案する。
生成されたビデオクリップは、複雑なマルチスケール構造を生成するフラクタルの自然能力に起因した顕著な多様性によって特徴づけられる。
通常のKineeticsの事前トレーニングと比較すると、報告結果が近くなり、下流のデータセットよりも優れています。
論文 参考訳(メタデータ) (2024-11-26T16:51:11Z) - A Low-Computational Video Synopsis Framework with a Standard Dataset [0.0]
ビデオ合成は、監視ビデオの凝縮に有効な方法である。
ビデオ合成タスクの標準データセットの欠如は、異なるビデオ合成モデルの比較を妨げる。
本稿では,計算コストの低いFGSというビデオ合成モデルを提案する。
論文 参考訳(メタデータ) (2024-09-08T22:08:36Z) - Restoration of Analog Videos Using Swin-UNet [28.773037051085318]
歴史的アーカイブのアナログ映像を復元するシステムを提案する。
提案システムでは,マルチフレーム方式を用いて,テープの誤り追跡を厳格に行うことができる。
論文 参考訳(メタデータ) (2023-11-07T16:00:31Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - Video Event Restoration Based on Keyframes for Video Anomaly Detection [9.18057851239942]
既存のディープニューラルネットワークベースの異常検出(VAD)手法は、主にフレーム再構成やフレーム予測の経路に従う。
これらの制限を突破するために、新しいVADパラダイムを導入します。
本稿では,ビデオイベント復元のためのU字型スイニングトランスフォーマーネットワーク (USTN-DSC) を提案する。
論文 参考訳(メタデータ) (2023-04-11T10:13:19Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - HODOR: High-level Object Descriptors for Object Re-segmentation in Video
Learned from Static Images [123.65233334380251]
オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用する新しい手法であるHODORを提案する。
その結果、HODORはDAVISとYouTube-VOSベンチマークで最先端のパフォーマンスを達成した。
アーキテクチャの変更なしに、HODORは単一の注釈付きビデオフレームに関するビデオコンテキストから学ぶこともできる。
論文 参考訳(メタデータ) (2021-12-16T18:59:53Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - BBAND Index: A No-Reference Banding Artifact Predictor [55.42929350861115]
バンディングアーティファクト(英: Banding artifact)または偽コントゥーリング(英: false contouring)は、一般的なビデオ圧縮障害である。
本稿では,Blind BANding Detector (BBAND index) と呼ばれる,歪み特異的な非参照ビデオ品質モデルを提案する。
論文 参考訳(メタデータ) (2020-02-27T03:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。