論文の概要: Learning Spatial-Temporal Implicit Neural Representations for
Event-Guided Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2303.13767v1
- Date: Fri, 24 Mar 2023 02:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 16:05:08.729439
- Title: Learning Spatial-Temporal Implicit Neural Representations for
Event-Guided Video Super-Resolution
- Title(参考訳): イベント誘導ビデオスーパーリゾリューションのための空間的暗黙的ニューラル表現の学習
- Authors: Yunfan Lu, Zipeng Wang, Minjie Liu, Hongjian Wang, Lin Wang
- Abstract要約: イベントカメラは、強度変化を非同期に検知し、高いダイナミックレンジと低レイテンシでイベントストリームを生成する。
これは、挑戦的なビデオ超解像(VSR)タスクを導くためにイベントを利用する研究にインスピレーションを与えている。
本稿では,イベントの高時間分解能の利点を生かして,ランダムスケールでのVSRの実現という新たな課題に対処する試みを行う。
- 参考スコア(独自算出の注目度): 9.431635577890745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras sense the intensity changes asynchronously and produce event
streams with high dynamic range and low latency. This has inspired research
endeavors utilizing events to guide the challenging video superresolution (VSR)
task. In this paper, we make the first attempt to address a novel problem of
achieving VSR at random scales by taking advantages of the high temporal
resolution property of events. This is hampered by the difficulties of
representing the spatial-temporal information of events when guiding VSR. To
this end, we propose a novel framework that incorporates the spatial-temporal
interpolation of events to VSR in a unified framework. Our key idea is to learn
implicit neural representations from queried spatial-temporal coordinates and
features from both RGB frames and events. Our method contains three parts.
Specifically, the Spatial-Temporal Fusion (STF) module first learns the 3D
features from events and RGB frames. Then, the Temporal Filter (TF) module
unlocks more explicit motion information from the events near the queried
timestamp and generates the 2D features. Lastly, the SpatialTemporal Implicit
Representation (STIR) module recovers the SR frame in arbitrary resolutions
from the outputs of these two modules. In addition, we collect a real-world
dataset with spatially aligned events and RGB frames. Extensive experiments
show that our method significantly surpasses the prior-arts and achieves VSR
with random scales, e.g., 6.5. Code and dataset are available at https:
//vlis2022.github.io/cvpr23/egvsr.
- Abstract(参考訳): イベントカメラは、強度変化を非同期に検知し、高いダイナミックレンジと低レイテンシでイベントストリームを生成する。
これは、挑戦的なビデオ超解像(VSR)タスクを導くためにイベントを利用する研究にインスピレーションを与えている。
本稿では,イベントの高時間分解能の利点を生かして,ランダムスケールでのVSRの実現という新たな課題に対処する試みを行う。
これは、VSRを導く際の事象の時空間的情報を表現することが困難である。
そこで本稿では,イベントの時空間補間を統合されたフレームワークでVSRに組み込む新しいフレームワークを提案する。
我々のキーとなる考え方は、探索された時空間座標とRGBフレームとイベントの両方の特徴から暗黙の神経表現を学ぶことである。
本手法は3つの部分を含む。
具体的には、Spatial-Temporal Fusion (STF)モジュールは、まずイベントとRGBフレームから3D特徴を学習する。
そして、時間フィルタ(TF)モジュールは、クエリされたタイムスタンプ近くのイベントからより明示的な動作情報をアンロックし、2D特徴を生成する。
最後に、Spatial Temporal Implicit Representation (STIR)モジュールは、これらの2つのモジュールの出力から任意の解像度でSRフレームを復元する。
さらに、空間的に整列したイベントとRGBフレームを持つ実世界のデータセットを収集する。
大規模な実験により,本手法は先行技術を大きく上回り,ランダムスケールのVSR(例えば6.5。
コードとデータセットはhttps: //vlis2022.github.io/cvpr23/egvsrで入手できる。
関連論文リスト
- Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration [9.547947845734992]
イベントカメラはバイオインスパイアされたセンサーで、強度の変化を非同期に捉え、イベントストリームを出力する。
本稿では, PAST-Act と呼ばれる新しいフレームワークを提案する。
私たちはまた、コミュニティの利益のために任意の期間で、ArDVS100という名前の分レベルのイベントベースの認識データセットを構築しました。
論文 参考訳(メタデータ) (2024-09-25T14:08:37Z) - HR-INR: Continuous Space-Time Video Super-Resolution via Event Camera [22.208120663778043]
連続時空超解像(C-STVSR)は、任意のスケールで解像度とフレームレートを同時に向上することを目的としている。
我々は、暗黙的神経表現(INR)に基づいて、全体依存と局所運動の両方をキャプチャするHR-INRと呼ばれる新しいC-STVSRフレームワークを提案する。
次に、時間的埋め込みを持つ新しいINRベースのデコーダを提案し、時間的知覚場を大きくすることで、長期的依存関係をキャプチャする。
論文 参考訳(メタデータ) (2024-05-22T06:51:32Z) - CRSOT: Cross-Resolution Object Tracking using Unaligned Frame and Event
Cameras [43.699819213559515]
既存のRGB-DVSトラッキング用のデータセットは、DVS346カメラで収集される。
我々は、特別に構築されたデータ取得システムを用いて収集された、最初の不整合フレームイベントデータセットCRSOTを構築した。
ゆるやかなRGBイベントデータを用いても、ロバストなトラッキングを実現することのできる、新しい非整列オブジェクト追跡フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-05T14:20:22Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - Self-Supervised Scene Dynamic Recovery from Rolling Shutter Images and
Events [63.984927609545856]
任意の時間間隔間での画素単位のダイナミックさを予測するために,イベントベース/イントラフレーム補償器(E-IC)を提案する。
提案手法は,実世界のシナリオにおけるイベントベースRS2GSインバージョンにおいて,顕著な性能を示す。
論文 参考訳(メタデータ) (2023-04-14T05:30:02Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Learning to Super-Resolve Blurry Images with Events [62.61911224564196]
単一運動ブラインド画像(SRB)からの超解像は, 運動ぼけと低空間分解能の合同劣化により, 深刻な問題となる。
我々は、SRBの負担を軽減するためにイベントを使用し、イベント強化SRB(E-SRB)アルゴリズムを提案する。
提案するeSL-Net++は最先端の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2023-02-27T13:46:42Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video
Super-Resolution [4.9136996406481135]
ビデオ超解像(VSR)は、低解像度(LR)フレームから高解像度(HR)フレームを推定することを目的としている。
VSRの鍵となる課題は、フレーム内の空間的相関と連続フレーム間の時間的依存を効果的に活用することにある。
論文 参考訳(メタデータ) (2021-06-14T06:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。