論文の概要: Blur Interpolation Transformer for Real-World Motion from Blur
- arxiv url: http://arxiv.org/abs/2211.11423v1
- Date: Mon, 21 Nov 2022 13:10:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:07:46.845767
- Title: Blur Interpolation Transformer for Real-World Motion from Blur
- Title(参考訳): ブラーからの実世界運動のためのブラー補間変圧器
- Authors: Zhihang Zhong, Mingdeng Cao, Xiang Ji, Yinqiang Zheng, Imari Sato
- Abstract要約: 本稿では, ボケの時間的相関を解き明かすために, 符号化されたブラー変換器(BiT)を提案する。
マルチスケール残留スウィン変圧器ブロックに基づいて、両端の時間的監督と時間対称なアンサンブル戦略を導入する。
さらに,1対1のぼやけたビデオペアの最初の実世界のデータセットを収集するハイブリッドカメラシステムを設計する。
- 参考スコア(独自算出の注目度): 52.10523711510876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the challenging problem of recovering motion from blur,
also known as joint deblurring and interpolation or blur temporal
super-resolution. The remaining challenges are twofold: 1) the current methods
still leave considerable room for improvement in terms of visual quality even
on the synthetic dataset, and 2) poor generalization to real-world data. To
this end, we propose a blur interpolation transformer (BiT) to effectively
unravel the underlying temporal correlation encoded in blur. Based on
multi-scale residual Swin transformer blocks, we introduce dual-end temporal
supervision and temporally symmetric ensembling strategies to generate
effective features for time-varying motion rendering. In addition, we design a
hybrid camera system to collect the first real-world dataset of one-to-many
blur-sharp video pairs. Experimental results show that BiT has a significant
gain over the state-of-the-art methods on the public dataset Adobe240. Besides,
the proposed real-world dataset effectively helps the model generalize well to
real blurry scenarios.
- Abstract(参考訳): 本稿では,関節脱毛,補間,あるいは時間的超解像と呼ばれるボケから運動を回復する難題について検討する。
残る課題は2つあります
1) 現在の手法では, 合成データセット上でも, 視覚品質の改善の余地が十分残されている。
2)実世界データへの貧弱な一般化。
そこで本稿では, ボケに符号化された時間相関を効果的に解き出すために, ボケ補間変換器(BiT)を提案する。
マルチスケールの残差スウィン変圧器ブロックに基づいて, 時間変動のレンダリングに効果的な特徴を生成するために, 二端の時間監督と時間対称のセンシング戦略を導入する。
さらに,1対1のぼやけたビデオペアの実際のデータセットを収集するハイブリッドカメラシステムを設計した。
実験の結果、BiTはパブリックデータセットAdobe240の最先端メソッドよりも大幅に向上していることがわかった。
さらに、提案した実世界のデータセットは、実際のぼやけたシナリオに対してモデルを効果的に一般化するのに役立つ。
関連論文リスト
- WTCL-Dehaze: Rethinking Real-world Image Dehazing via Wavelet Transform and Contrastive Learning [17.129068060454255]
自律運転や監視といったアプリケーションには、単一イメージのデハジングが不可欠だ。
コントラスト損失と離散ウェーブレット変換を統合した半教師付きデハージングネットワークを提案する。
提案アルゴリズムは,最先端の単一画像復調法と比較して,優れた性能とロバスト性を実現している。
論文 参考訳(メタデータ) (2024-10-07T05:36:11Z) - DeblurDiNAT: A Generalizable Transformer for Perceptual Image Deblurring [1.5124439914522694]
DeblurDiNATは汎用的で効率的なエンコーダ・デコーダ変換器であり、地上の真実に近いクリーンな画像を復元する。
本稿では,線形フィードフォワードネットワークと非線形デュアルステージ機能融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-19T21:31:31Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - STint: Self-supervised Temporal Interpolation for Geospatial Data [0.0]
監督・監督されていない技術は、ビデオデータの時間的可能性を実証している。
最も一般的な時間的手法は、ビデオフレーム間のピクセルの動きを符号化する光の流れにヒンジする。
本研究では,地上の真実データに頼らず,光学的流れのような動き情報を必要としない,教師なしの時間的手法を提案する。
論文 参考訳(メタデータ) (2023-08-31T18:04:50Z) - Generalizing Event-Based Motion Deblurring in Real-World Scenarios [62.995994797897424]
イベントベースの動作遅延は、低レイテンシイベントを活用することで、有望な結果を示している。
本研究では,フレキシブルな入力空間スケールを実現するとともに,時間スケールの異なる動きのぼかしから学習できるスケール対応ネットワークを提案する。
次に,実世界のデータ分布に適合する2段階の自己教師型学習手法を開発した。
論文 参考訳(メタデータ) (2023-08-11T04:27:29Z) - Joint Video Multi-Frame Interpolation and Deblurring under Unknown
Exposure Time [101.91824315554682]
本研究では,より現実的で挑戦的なタスク – 複数フレームのジョイントビデオと,未知の露光時間下での劣化 – を野心的に目標とする。
我々はまず,入力されたぼやけたフレームから露出認識表現を構築するために,教師付きコントラスト学習の変種を採用する。
次に、プログレッシブ露光適応型畳み込みと動き改善による露出と動きの表現に基づいて、映像再構成ネットワークを構築した。
論文 参考訳(メタデータ) (2023-03-27T09:43:42Z) - Rethinking Blur Synthesis for Deep Real-World Image Deblurring [4.00114307523959]
本稿では,撮影過程をシミュレートする,新しいリアルなボケ合成パイプラインを提案する。
機能領域における非局所的依存関係と局所的コンテキストを同時にキャプチャする効果的なデブロアリングモデルを開発する。
3つの実世界のデータセットに関する総合的な実験により、提案したデブロアリングモデルは最先端の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-09-28T06:50:16Z) - Time Lens++: Event-based Frame Interpolation with Parametric Non-linear
Flow and Multi-scale Fusion [47.57998625129672]
イベントや画像から1ショットの非線形なフレーム間動きを複数スケールのフィーチャレベル融合と計算する。
提案手法は,PSNRで最大0.2dB,LPIPSで最大15%の再現性向上を実現する。
論文 参考訳(メタデータ) (2022-03-31T17:14:58Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - Decoupled Spatial-Temporal Transformer for Video Inpainting [77.8621673355983]
ビデオは、特定の穴をリアルな外観で埋めることを目指していますが、豊かなディープラーニングアプローチでも依然として難しい作業です。
最近の研究は、将来有望なTransformerアーキテクチャをディープビデオのインペイントに導入し、より良いパフォーマンスを実現している。
ビデオインペインティングを優れた効率で改善するため、DSTT(Decoupled Spatial-Temporal Transformer)を提案します。
論文 参考訳(メタデータ) (2021-04-14T05:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。