Fugu-MT 論文翻訳(概要): Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video Restoration

論文の概要: Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video Restoration

arxiv url: http://arxiv.org/abs/2205.10195v1
Date: Fri, 20 May 2022 14:14:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-23 15:12:53.191141
Title: Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video Restoration
Title（参考訳）: ビデオ復元のための教師なしフローアラインシーケンス・ツー・シーケンス学習
Authors: Jing Lin, Xiaowan Hu, Yuanhao Cai, Haoqian Wang, Youliang Yan, Xueyi Zou, Yulun Zhang, Luc Van Gool
Abstract要約: ビデオシーケンス内のフレーム間関係を適切にモデル化する方法は、ビデオ復元(VR)において重要であるが未解決の課題である。本研究では,この問題を解決するために,教師なしフローアライメントシーケンス・ツー・シーケンス・モデル(S2SVR)を提案する。 S2SVRは、ビデオデブリ、ビデオスーパー解像度、圧縮されたビデオ品質向上など、複数のVRタスクにおいて優れたパフォーマンスを示している。
参考スコア（独自算出の注目度）: 85.3323211054274
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How to properly model the inter-frame relation within the video sequence is an important but unsolved challenge for video restoration (VR). In this work, we propose an unsupervised flow-aligned sequence-to-sequence model (S2SVR) to address this problem. On the one hand, the sequence-to-sequence model, which has proven capable of sequence modeling in the field of natural language processing, is explored for the first time in VR. Optimized serialization modeling shows potential in capturing long-range dependencies among frames. On the other hand, we equip the sequence-to-sequence model with an unsupervised optical flow estimator to maximize its potential. The flow estimator is trained with our proposed unsupervised distillation loss, which can alleviate the data discrepancy and inaccurate degraded optical flow issues of previous flow-based methods. With reliable optical flow, we can establish accurate correspondence among multiple frames, narrowing the domain difference between 1D language and 2D misaligned frames and improving the potential of the sequence-to-sequence model. S2SVR shows superior performance in multiple VR tasks, including video deblurring, video super-resolution, and compressed video quality enhancement. Code and models are publicly available at https://github.com/linjing7/VR-Baseline
Abstract（参考訳）: ビデオシーケンス内のフレーム間関係を適切にモデル化する方法は、ビデオ復元(vr)にとって重要だが未解決の課題である。本研究では,この問題に対処するために,教師なしのフローアラインシーケンス・ツー・シーケンスモデル(s2svr)を提案する。一方,自然言語処理の分野でのシーケンスモデリング能力が証明されたシーケンシャル・ツー・シーケンスモデルがvrで初めて研究されている。最適化シリアライゼーションモデリングは、フレーム間の長距離依存関係をキャプチャする可能性を示している。一方,逐次-系列モデルには教師なしの光流量推定器が組み込まれ,そのポテンシャルを最大化している。フロー推定器は, 提案する非教師付き蒸留損失により, 従来のフローベース法における不正確な光学的流れ問題とデータの不一致を緩和する。信頼性の高い光フローにより、複数のフレーム間の正確な対応を確立し、1次元言語と2次元不整合フレームのドメイン差を狭め、シーケンシャル・ツー・シーケンスモデルのポテンシャルを向上させることができる。 s2svrは、ビデオデブラリング、ビデオスーパーレゾリューション、圧縮されたビデオ品質向上など、複数のvrタスクにおいて優れたパフォーマンスを示している。コードとモデルはhttps://github.com/linjing7/VR-Baselineで公開されている。

関連論文リスト

Taming generative video models for zero-shot optical flow extraction [28.176290134216995]
将来のフレーム予測のためにのみ訓練された自己教師付きビデオモデルは、微調整なしで、出力フローを誘導することができる。対実世界モデル(CWM)パラダイムに触発されて、我々はこのアイデアを生成型ビデオモデルに拡張する。 KLトラシング(KL-tracing)は、局所摂動を第1フレームに注入し、モデルを第1ステップでロールアウトし、摂動分布と非退化予測分布の間のクルバック・リーブラー分岐を計算する、新しいテストタイムプロシージャである。
論文参考訳（メタデータ） (2025-07-11T23:59:38Z)
Towards Efficient Real-Time Video Motion Transfer via Generative Time Series Modeling [7.3949576464066]
本研究では,モーショントランスファー対応ビデオアプリケーションにおいて,帯域幅を大幅に最適化する深層学習フレームワークを提案する。複雑な動きを効果的に捉えるために,キーポイントを検出することで動的物体を符号化する第1次運動モデル(FOMM)を用いる。ビデオアニメーションと再構成のために, 平均絶対誤差, 共同埋め込み予測アーキテクチャ埋め込み距離, 構造類似度指数, 平均ペアワイズ変位の3つの指標を用いて, 実験結果を検証した。
論文参考訳（メタデータ） (2025-04-07T22:21:54Z)
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。 Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文参考訳（メタデータ） (2024-09-18T17:59:32Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T15:32:59Z)
FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。 FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文参考訳（メタデータ） (2020-12-15T18:59:30Z)
Diagnosing and Preventing Instabilities in Recurrent Video Processing [23.39527368516591]
ビデオの安定性モデルは、長時間の可視化において、推論時に破滅的に失敗する傾向があることを示す。本稿では,不安定性の引き金に最適化された逆入力シーケンスを生成する診断ツールを提案する。次に、これらの制約を強制する新しいアルゴリズムであるSRNL(Stable Rank Normalization of the Layers)を導入する。
論文参考訳（メタデータ） (2020-10-10T21:39:28Z)
Hybrid-S2S: Video Object Segmentation with Recurrent Networks and Correspondence Matching [3.9053553775979086]
ワンショットビデオオブジェクト(ワンショットビデオオブジェクト、英: One-shot Video Object、VOS)は、ビデオシーケンス内で関心のあるオブジェクトを追跡するタスクである。本稿では,RNNをベースとしたアーキテクチャについて検討し,HS2Sというハイブリッドシーケンス・ツー・シーケンスアーキテクチャを提案する。実験の結果,RNNを対応マッチングで拡張することはドリフト問題を低減するのに極めて有効な解であることがわかった。
論文参考訳（メタデータ） (2020-10-10T19:00:43Z)
Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文参考訳（メタデータ） (2020-09-10T02:31:50Z)
Neural Video Coding using Multiscale Motion Compensation and Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。 NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文参考訳（メタデータ） (2020-07-09T06:15:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。