論文の概要: Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video
Restoration
- arxiv url: http://arxiv.org/abs/2205.10195v1
- Date: Fri, 20 May 2022 14:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 15:12:53.191141
- Title: Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video
Restoration
- Title(参考訳): ビデオ復元のための教師なしフローアラインシーケンス・ツー・シーケンス学習
- Authors: Jing Lin, Xiaowan Hu, Yuanhao Cai, Haoqian Wang, Youliang Yan, Xueyi
Zou, Yulun Zhang, Luc Van Gool
- Abstract要約: ビデオシーケンス内のフレーム間関係を適切にモデル化する方法は、ビデオ復元(VR)において重要であるが未解決の課題である。
本研究では,この問題を解決するために,教師なしフローアライメントシーケンス・ツー・シーケンス・モデル(S2SVR)を提案する。
S2SVRは、ビデオデブリ、ビデオスーパー解像度、圧縮されたビデオ品質向上など、複数のVRタスクにおいて優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 85.3323211054274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to properly model the inter-frame relation within the video sequence is
an important but unsolved challenge for video restoration (VR). In this work,
we propose an unsupervised flow-aligned sequence-to-sequence model (S2SVR) to
address this problem. On the one hand, the sequence-to-sequence model, which
has proven capable of sequence modeling in the field of natural language
processing, is explored for the first time in VR. Optimized serialization
modeling shows potential in capturing long-range dependencies among frames. On
the other hand, we equip the sequence-to-sequence model with an unsupervised
optical flow estimator to maximize its potential. The flow estimator is trained
with our proposed unsupervised distillation loss, which can alleviate the data
discrepancy and inaccurate degraded optical flow issues of previous flow-based
methods. With reliable optical flow, we can establish accurate correspondence
among multiple frames, narrowing the domain difference between 1D language and
2D misaligned frames and improving the potential of the sequence-to-sequence
model. S2SVR shows superior performance in multiple VR tasks, including video
deblurring, video super-resolution, and compressed video quality enhancement.
Code and models are publicly available at
https://github.com/linjing7/VR-Baseline
- Abstract(参考訳): ビデオシーケンス内のフレーム間関係を適切にモデル化する方法は、ビデオ復元(vr)にとって重要だが未解決の課題である。
本研究では,この問題に対処するために,教師なしのフローアラインシーケンス・ツー・シーケンスモデル(s2svr)を提案する。
一方,自然言語処理の分野でのシーケンスモデリング能力が証明されたシーケンシャル・ツー・シーケンスモデルがvrで初めて研究されている。
最適化シリアライゼーションモデリングは、フレーム間の長距離依存関係をキャプチャする可能性を示している。
一方,逐次-系列モデルには教師なしの光流量推定器が組み込まれ,そのポテンシャルを最大化している。
フロー推定器は, 提案する非教師付き蒸留損失により, 従来のフローベース法における不正確な光学的流れ問題とデータの不一致を緩和する。
信頼性の高い光フローにより、複数のフレーム間の正確な対応を確立し、1次元言語と2次元不整合フレームのドメイン差を狭め、シーケンシャル・ツー・シーケンスモデルのポテンシャルを向上させることができる。
s2svrは、ビデオデブラリング、ビデオスーパーレゾリューション、圧縮されたビデオ品質向上など、複数のvrタスクにおいて優れたパフォーマンスを示している。
コードとモデルはhttps://github.com/linjing7/VR-Baselineで公開されている。
関連論文リスト
- Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。
Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。
また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文 参考訳(メタデータ) (2024-09-18T17:59:32Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - Diagnosing and Preventing Instabilities in Recurrent Video Processing [23.39527368516591]
ビデオの安定性モデルは、長時間の可視化において、推論時に破滅的に失敗する傾向があることを示す。
本稿では,不安定性の引き金に最適化された逆入力シーケンスを生成する診断ツールを提案する。
次に、これらの制約を強制する新しいアルゴリズムであるSRNL(Stable Rank Normalization of the Layers)を導入する。
論文 参考訳(メタデータ) (2020-10-10T21:39:28Z) - Hybrid-S2S: Video Object Segmentation with Recurrent Networks and
Correspondence Matching [3.9053553775979086]
ワンショットビデオオブジェクト(ワンショットビデオオブジェクト、英: One-shot Video Object、VOS)は、ビデオシーケンス内で関心のあるオブジェクトを追跡するタスクである。
本稿では,RNNをベースとしたアーキテクチャについて検討し,HS2Sというハイブリッドシーケンス・ツー・シーケンスアーキテクチャを提案する。
実験の結果,RNNを対応マッチングで拡張することはドリフト問題を低減するのに極めて有効な解であることがわかった。
論文 参考訳(メタデータ) (2020-10-10T19:00:43Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。