論文の概要: Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video
Restoration
- arxiv url: http://arxiv.org/abs/2205.10195v1
- Date: Fri, 20 May 2022 14:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 15:12:53.191141
- Title: Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video
Restoration
- Title(参考訳): ビデオ復元のための教師なしフローアラインシーケンス・ツー・シーケンス学習
- Authors: Jing Lin, Xiaowan Hu, Yuanhao Cai, Haoqian Wang, Youliang Yan, Xueyi
Zou, Yulun Zhang, Luc Van Gool
- Abstract要約: ビデオシーケンス内のフレーム間関係を適切にモデル化する方法は、ビデオ復元(VR)において重要であるが未解決の課題である。
本研究では,この問題を解決するために,教師なしフローアライメントシーケンス・ツー・シーケンス・モデル(S2SVR)を提案する。
S2SVRは、ビデオデブリ、ビデオスーパー解像度、圧縮されたビデオ品質向上など、複数のVRタスクにおいて優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 85.3323211054274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to properly model the inter-frame relation within the video sequence is
an important but unsolved challenge for video restoration (VR). In this work,
we propose an unsupervised flow-aligned sequence-to-sequence model (S2SVR) to
address this problem. On the one hand, the sequence-to-sequence model, which
has proven capable of sequence modeling in the field of natural language
processing, is explored for the first time in VR. Optimized serialization
modeling shows potential in capturing long-range dependencies among frames. On
the other hand, we equip the sequence-to-sequence model with an unsupervised
optical flow estimator to maximize its potential. The flow estimator is trained
with our proposed unsupervised distillation loss, which can alleviate the data
discrepancy and inaccurate degraded optical flow issues of previous flow-based
methods. With reliable optical flow, we can establish accurate correspondence
among multiple frames, narrowing the domain difference between 1D language and
2D misaligned frames and improving the potential of the sequence-to-sequence
model. S2SVR shows superior performance in multiple VR tasks, including video
deblurring, video super-resolution, and compressed video quality enhancement.
Code and models are publicly available at
https://github.com/linjing7/VR-Baseline
- Abstract(参考訳): ビデオシーケンス内のフレーム間関係を適切にモデル化する方法は、ビデオ復元(vr)にとって重要だが未解決の課題である。
本研究では,この問題に対処するために,教師なしのフローアラインシーケンス・ツー・シーケンスモデル(s2svr)を提案する。
一方,自然言語処理の分野でのシーケンスモデリング能力が証明されたシーケンシャル・ツー・シーケンスモデルがvrで初めて研究されている。
最適化シリアライゼーションモデリングは、フレーム間の長距離依存関係をキャプチャする可能性を示している。
一方,逐次-系列モデルには教師なしの光流量推定器が組み込まれ,そのポテンシャルを最大化している。
フロー推定器は, 提案する非教師付き蒸留損失により, 従来のフローベース法における不正確な光学的流れ問題とデータの不一致を緩和する。
信頼性の高い光フローにより、複数のフレーム間の正確な対応を確立し、1次元言語と2次元不整合フレームのドメイン差を狭め、シーケンシャル・ツー・シーケンスモデルのポテンシャルを向上させることができる。
s2svrは、ビデオデブラリング、ビデオスーパーレゾリューション、圧縮されたビデオ品質向上など、複数のvrタスクにおいて優れたパフォーマンスを示している。
コードとモデルはhttps://github.com/linjing7/VR-Baselineで公開されている。
関連論文リスト
- TrackDiffusion: Multi-object Tracking Data Generation via Diffusion
Models [81.81382481184889]
TrackDiffusionは、トラックレットから連続的なビデオシーケンスを生成するように設計された新しいアーキテクチャである。
生成したビデオシーケンスを,MOT(Multi-object Tracking)システムのトレーニングに活用できることを初めて実証した。
提案手法はTrackAPの8.7とTrackAPの11.8をYTVISデータセットの_50$で改善する。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Control-A-Video: Controllable Text-to-Video Generation with Diffusion
Models [52.512109160994655]
本稿では,制御可能なテキスト・ツー・ビデオ(T2V)拡散モデルであるコントロール・ア・ビデオについて述べる。
オブジェクトの一貫性を改善するために、Control-A-Videoは動画生成にモーション・プレッションとコンテント・プレッションを統合する。
本モデルでは, 資源効率の収束を実現し, きめ細かい制御で一貫したコヒーレントな映像を生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - Diagnosing and Preventing Instabilities in Recurrent Video Processing [23.39527368516591]
ビデオの安定性モデルは、長時間の可視化において、推論時に破滅的に失敗する傾向があることを示す。
本稿では,不安定性の引き金に最適化された逆入力シーケンスを生成する診断ツールを提案する。
次に、これらの制約を強制する新しいアルゴリズムであるSRNL(Stable Rank Normalization of the Layers)を導入する。
論文 参考訳(メタデータ) (2020-10-10T21:39:28Z) - Hybrid-S2S: Video Object Segmentation with Recurrent Networks and
Correspondence Matching [3.9053553775979086]
ワンショットビデオオブジェクト(ワンショットビデオオブジェクト、英: One-shot Video Object、VOS)は、ビデオシーケンス内で関心のあるオブジェクトを追跡するタスクである。
本稿では,RNNをベースとしたアーキテクチャについて検討し,HS2Sというハイブリッドシーケンス・ツー・シーケンスアーキテクチャを提案する。
実験の結果,RNNを対応マッチングで拡張することはドリフト問題を低減するのに極めて有効な解であることがわかった。
論文 参考訳(メタデータ) (2020-10-10T19:00:43Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。