論文の概要: Video Decomposition Prior: A Methodology to Decompose Videos into Layers
- arxiv url: http://arxiv.org/abs/2412.04930v2
- Date: Mon, 09 Dec 2024 03:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 11:30:43.849055
- Title: Video Decomposition Prior: A Methodology to Decompose Videos into Layers
- Title(参考訳): ビデオ分解先行:動画を層に分解する手法
- Authors: Gaurav Shrivastava, Ser-Nam Lim, Abhinav Shrivastava,
- Abstract要約: 本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
- 参考スコア(独自算出の注目度): 74.36790196133505
- License:
- Abstract: In the evolving landscape of video enhancement and editing methodologies, a majority of deep learning techniques often rely on extensive datasets of observed input and ground truth sequence pairs for optimal performance. Such reliance often falters when acquiring data becomes challenging, especially in tasks like video dehazing and relighting, where replicating identical motions and camera angles in both corrupted and ground truth sequences is complicated. Moreover, these conventional methodologies perform best when the test distribution closely mirrors the training distribution. Recognizing these challenges, this paper introduces a novel video decomposition prior `VDP' framework which derives inspiration from professional video editing practices. Our methodology does not mandate task-specific external data corpus collection, instead pivots to utilizing the motion and appearance of the input video. VDP framework decomposes a video sequence into a set of multiple RGB layers and associated opacity levels. These set of layers are then manipulated individually to obtain the desired results. We addresses tasks such as video object segmentation, dehazing, and relighting. Moreover, we introduce a novel logarithmic video decomposition formulation for video relighting tasks, setting a new benchmark over the existing methodologies. We observe the property of relighting emerge as we optimize for our novel relighting decomposition formulation. We evaluate our approach on standard video datasets like DAVIS, REVIDE, & SDSD and show qualitative results on a diverse array of internet videos. Project Page - https://www.cs.umd.edu/~gauravsh/video_decomposition/index.html for video results.
- Abstract(参考訳): ビデオエンハンスメントと編集手法の進化する状況において、ディープラーニング技術の大部分は、最適なパフォーマンスのために観測されたインプットと接地真理シーケンスペアの広範なデータセットに依存していることが多い。
特にビデオのデハージングやリライティングのようなタスクでは、同じ動きとカメラの角度を、破壊された真理シーケンスと地上の真理シーケンスの両方で複製することは複雑である。
さらに、これらの従来の手法は、テスト分布がトレーニング分布を密接に反映した場合に最もよく機能する。
本稿では,これらの課題を認識し,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
提案手法は,タスク固有の外部データコーパスの収集を委任するのではなく,入力ビデオの動作と外観を活用することを目的としている。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
これらのレイヤは個別に操作され、望ましい結果が得られる。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
さらに,ビデオリライトタスクのための対数分解の新たな定式化を導入し,既存の手法に対する新しいベンチマークを設定した。
我々は,新しいリライティング分解の定式化を最適化する際,リライティングの性質が出現するのを観察する。
DAVIS,REVIDE,SDSDなどの標準ビデオデータセットに対するアプローチを評価し,様々なインターネットビデオに対して質的な結果を示す。
Project Page - https://www.cs.umd.edu/~gauravsh/video_decomposition/index.html
関連論文リスト
- Agent-based Video Trimming [17.519404251018308]
ビデオトリミング(VT)という新しいタスクを導入する。
VTは、無駄な映像を検出し、貴重なセグメントを選択し、それらをコヒーレントなストーリーで最終ビデオに構成することに焦点を当てている。
AVTは、ユーザスタディにおいてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。
論文 参考訳(メタデータ) (2024-12-12T17:59:28Z) - VJT: A Video Transformer on Joint Tasks of Deblurring, Low-light
Enhancement and Denoising [45.349350685858276]
ビデオ復元作業は、低品質な観察から高品質な映像を復元することを目的としている。
ビデオはしばしば、ぼやけ、低照度、ノイズなど、さまざまな種類の劣化に直面します。
本稿では,映像の劣化,低照度化,雑音化といった共同作業に対して,効率的なエンドツーエンドビデオトランスフォーマ手法を提案する。
論文 参考訳(メタデータ) (2024-01-26T10:27:56Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。
本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。