論文の概要: ASF-Net: Robust Video Deraining via Temporal Alignment and Online
Adaptive Learning
- arxiv url: http://arxiv.org/abs/2309.00956v1
- Date: Sat, 2 Sep 2023 14:50:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 00:07:31.372108
- Title: ASF-Net: Robust Video Deraining via Temporal Alignment and Online
Adaptive Learning
- Title(参考訳): ASF-Net: 時間的アライメントとオンライン適応学習によるロバストなビデオレイアウト
- Authors: Xinwei Xue, Jia He, Long Ma, Xiangyu Meng, Wenlin Li, Risheng Liu
- Abstract要約: 本稿では,時間シフトモジュールを組み込んだ新しい計算パラダイムであるアライメント・シフト・フュージョン・ネットワーク(ASF-Net)を提案する。
LArgeスケールのRAINYビデオデータセット(LARA)を構築し,このコミュニティの開発を支援する。
提案手法は,3つのベンチマークにおいて優れた性能を示し,実世界のシナリオにおいて魅力的な視覚的品質を示す。
- 参考スコア(独自算出の注目度): 47.10392889695035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent times, learning-based methods for video deraining have demonstrated
commendable results. However, there are two critical challenges that these
methods are yet to address: exploiting temporal correlations among adjacent
frames and ensuring adaptability to unknown real-world scenarios. To overcome
these challenges, we explore video deraining from a paradigm design perspective
to learning strategy construction. Specifically, we propose a new computational
paradigm, Alignment-Shift-Fusion Network (ASF-Net), which incorporates a
temporal shift module. This module is novel to this field and provides deeper
exploration of temporal information by facilitating the exchange of
channel-level information within the feature space. To fully discharge the
model's characterization capability, we further construct a LArge-scale RAiny
video dataset (LARA) which also supports the development of this community. On
the basis of the newly-constructed dataset, we explore the parameters learning
process by developing an innovative re-degraded learning strategy. This
strategy bridges the gap between synthetic and real-world scenes, resulting in
stronger scene adaptability. Our proposed approach exhibits superior
performance in three benchmarks and compelling visual quality in real-world
scenarios, underscoring its efficacy. The code is available at
https://github.com/vis-opt-group/ASF-Net.
- Abstract(参考訳): 近年,ビデオデラリニングの学習に基づく手法が提案されている。
しかし、これらの手法には2つの重要な課題がある: 隣接するフレーム間の時間的相関を利用して、未知の現実世界のシナリオへの適応性を確保する。
これらの課題を克服するために,パラダイムデザインの観点から,ビデオデザイニングを学習戦略構築まで探求する。
具体的には、時間シフトモジュールを組み込んだ新しい計算パラダイムAlignment-Shift-Fusion Network (ASF-Net)を提案する。
このモジュールはこの分野では新しく、特徴空間内のチャネルレベルの情報の交換を容易にすることで、時間情報のより深い探索を提供する。
モデルのキャラクタリゼーション能力を最大限に活用するために,このコミュニティの発展を支援するLArgeスケールのRAINYビデオデータセット(LARA)をさらに構築する。
新たに構築されたデータセットに基づいて,新しい学習戦略を考案し,パラメータ学習プロセスを探索する。
この戦略は、合成シーンと現実世界シーンのギャップを橋渡しし、シーン適応性を高める。
提案手法は,3つのベンチマークで優れた性能を示し,実世界のシナリオにおいて魅力的な視覚品質を示す。
コードはhttps://github.com/vis-opt-group/asf-netで入手できる。
関連論文リスト
- From CNN to CNN + RNN: Adapting Visualization Techniques for Time-Series Anomaly Detection [0.0]
ディープニューラルネットワークは複雑な問題を解決するのに非常に効果的であるが、しばしば「ブラックボックス」と見なされる。
本稿では,ビデオベースモデルを視覚的に解釈することの難しさを強調し,静的画像の手法を再帰的アーキテクチャに適用できることを実証する。
論文 参考訳(メタデータ) (2024-11-07T13:45:23Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Fast Video Salient Object Detection via Spatiotemporal Knowledge
Distillation [20.196945571479002]
本稿では,映像の有能な物体検出に適した軽量ネットワークを提案する。
具体的には,空間的特徴を洗練させるために,サリエンシガイダンスの埋め込み構造と空間知識蒸留を組み合わせた。
時間的側面において,ネットワークが頑健な時間的特徴を学習することのできる時間的知識蒸留戦略を提案する。
論文 参考訳(メタデータ) (2020-10-20T04:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。