論文の概要: An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement
- arxiv url: http://arxiv.org/abs/2012.13033v1
- Date: Thu, 24 Dec 2020 00:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 08:09:13.905835
- Title: An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement
- Title(参考訳): 教師なしリアルタイム映像強調のための高能率リカレント・アドバイザラル・フレームワーク
- Authors: Dario Fuoli, Zhiwu Huang, Danda Pani Paudel, Luc Van Gool, Radu
Timofte
- Abstract要約: 対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
- 参考スコア(独自算出の注目度): 132.60976158877608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video enhancement is a challenging problem, more than that of stills, mainly
due to high computational cost, larger data volumes and the difficulty of
achieving consistency in the spatio-temporal domain. In practice, these
challenges are often coupled with the lack of example pairs, which inhibits the
application of supervised learning strategies. To address these challenges, we
propose an efficient adversarial video enhancement framework that learns
directly from unpaired video examples. In particular, our framework introduces
new recurrent cells that consist of interleaved local and global modules for
implicit integration of spatial and temporal information. The proposed design
allows our recurrent cells to efficiently propagate spatio-temporal information
across frames and reduces the need for high complexity networks. Our setting
enables learning from unpaired videos in a cyclic adversarial manner, where the
proposed recurrent units are employed in all architectures. Efficient training
is accomplished by introducing one single discriminator that learns the joint
distribution of source and target domain simultaneously. The enhancement
results demonstrate clear superiority of the proposed video enhancer over the
state-of-the-art methods, in all terms of visual quality, quantitative metrics,
and inference speed. Notably, our video enhancer is capable of enhancing over
35 frames per second of FullHD video (1080x1920).
- Abstract(参考訳): ビデオ強調は、主に計算コストが高く、データ量が大きく、時空間における一貫性の達成が困難であるため、スティルよりも難しい問題である。
実際には、これらの課題は、教師付き学習戦略の適用を阻害するサンプルペアの欠如としばしば結合される。
これらの課題に対処するために,不用意なビデオ例から直接学習する効率的な対角ビデオ強調フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の時空間情報を効率的に伝達でき,複雑なネットワークの必要性を低減できる。
提案手法では,提案する再帰単位を全てのアーキテクチャで採用することで,非ペア映像からの学習を循環的に行うことができる。
効率的なトレーニングは、ソースとターゲットドメインの合同分布を同時に学習する単一の識別器を導入することで達成される。
その結果,提案する映像エンハンサーは,視覚品質,定量的指標,推論速度の面で,最先端手法よりも明らかに優れていることがわかった。
特に、我々のビデオエンハンサーは、フルhdビデオ(1080x1920)を毎秒35フレーム以上増やすことができる。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Bridging the Gap: A Unified Video Comprehension Framework for Moment
Retrieval and Highlight Detection [45.82453232979516]
ビデオモーメント検索 (MR) とハイライト検出 (HD) は, ビデオ解析の需要が高まっているため, 注目されている。
最近のアプローチでは、MRとHDをビデオグラウンド問題として扱い、トランスフォーマーベースのアーキテクチャでそれらに対処している。
本稿では,そのギャップを埋め,MRとHDを効果的に解決するための統一ビデオ理解フレームワーク(UVCOM)を提案する。
論文 参考訳(メタデータ) (2023-11-28T03:55:23Z) - CHAIN: Exploring Global-Local Spatio-Temporal Information for Improved
Self-Supervised Video Hashing [45.216750448864275]
ローカルな冗長性と複雑なグローバルなビデオフレームのため、ビデオ検索の正確なハッシュを学習することは困難である。
提案するContrastive Hash-temporal Information (CHAIN) は、4つのビデオベンチマークデータセット上で最先端の自己監督型ビデオハッシュ法より優れている。
論文 参考訳(メタデータ) (2023-10-29T07:36:11Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Enhanced Spatio-Temporal Interaction Learning for Video Deraining: A
Faster and Better Framework [93.37833982180538]
不要な雨がビデオの可視性を阻害し、ほとんどの屋外ビジョンシステムの堅牢性を低下させるため、ビデオ排水はコンピュータビジョンの重要なタスクです。
拡張時空間相互作用ネットワーク(ESTINet)と呼ばれる新しいエンドツーエンドのデラミニングフレームワークを提案する。
ESTINetは、現在の最先端ビデオの画質とスピードを大幅に向上させる。
論文 参考訳(メタデータ) (2021-03-23T05:19:35Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。