Fugu-MT 論文翻訳(概要): Learning Spatial-Temporal Implicit Neural Representations for Event-Guided Video Super-Resolution

論文の概要: Learning Spatial-Temporal Implicit Neural Representations for Event-Guided Video Super-Resolution

arxiv url: http://arxiv.org/abs/2303.13767v2
Date: Wed, 29 Mar 2023 01:59:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-30 17:19:16.009070
Title: Learning Spatial-Temporal Implicit Neural Representations for Event-Guided Video Super-Resolution
Title（参考訳）: イベント誘導ビデオスーパーリゾリューションのための空間的暗黙的ニューラル表現の学習
Authors: Yunfan Lu, Zipeng Wang, Minjie Liu, Hongjian Wang, Lin Wang
Abstract要約: イベントカメラは、強度変化を非同期に検知し、高いダイナミックレンジと低レイテンシでイベントストリームを生成する。これは、挑戦的なビデオ超解像(VSR)タスクを導くためにイベントを利用する研究にインスピレーションを与えている。本稿では,イベントの高時間分解能の利点を生かして,ランダムスケールでのVSRの実現という新たな課題に対処する試みを行う。
参考スコア（独自算出の注目度）: 9.431635577890745
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Event cameras sense the intensity changes asynchronously and produce event streams with high dynamic range and low latency. This has inspired research endeavors utilizing events to guide the challenging video superresolution (VSR) task. In this paper, we make the first attempt to address a novel problem of achieving VSR at random scales by taking advantages of the high temporal resolution property of events. This is hampered by the difficulties of representing the spatial-temporal information of events when guiding VSR. To this end, we propose a novel framework that incorporates the spatial-temporal interpolation of events to VSR in a unified framework. Our key idea is to learn implicit neural representations from queried spatial-temporal coordinates and features from both RGB frames and events. Our method contains three parts. Specifically, the Spatial-Temporal Fusion (STF) module first learns the 3D features from events and RGB frames. Then, the Temporal Filter (TF) module unlocks more explicit motion information from the events near the queried timestamp and generates the 2D features. Lastly, the SpatialTemporal Implicit Representation (STIR) module recovers the SR frame in arbitrary resolutions from the outputs of these two modules. In addition, we collect a real-world dataset with spatially aligned events and RGB frames. Extensive experiments show that our method significantly surpasses the prior-arts and achieves VSR with random scales, e.g., 6.5. Code and dataset are available at https: //vlis2022.github.io/cvpr23/egvsr.
Abstract（参考訳）: イベントカメラは、強度変化を非同期に検知し、高いダイナミックレンジと低レイテンシでイベントストリームを生成する。これは、挑戦的なビデオ超解像(VSR)タスクを導くためにイベントを利用する研究にインスピレーションを与えている。本稿では,イベントの高時間分解能の利点を生かして,ランダムスケールでのVSRの実現という新たな課題に対処する試みを行う。これは、VSRを導く際の事象の時空間的情報を表現することが困難である。そこで本稿では,イベントの時空間補間を統合されたフレームワークでVSRに組み込む新しいフレームワークを提案する。我々のキーとなる考え方は、探索された時空間座標とRGBフレームとイベントの両方の特徴から暗黙の神経表現を学ぶことである。本手法は3つの部分を含む。具体的には、Spatial-Temporal Fusion (STF)モジュールは、まずイベントとRGBフレームから3D特徴を学習する。そして、時間フィルタ(TF)モジュールは、クエリされたタイムスタンプ近くのイベントからより明示的な動作情報をアンロックし、2D特徴を生成する。最後に、Spatial Temporal Implicit Representation (STIR)モジュールは、これらの2つのモジュールの出力から任意の解像度でSRフレームを復元する。さらに、空間的に整列したイベントとRGBフレームを持つ実世界のデータセットを収集する。大規模な実験により,本手法は先行技術を大きく上回り,ランダムスケールのVSR(例えば6.5。コードとデータセットはhttps: //vlis2022.github.io/cvpr23/egvsrで入手できる。

関連論文リスト

Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation [8.76832497215149]
イベントカメラは動きのダイナミクスを捉え、様々なコンピュータビジョンタスクにおいて大きな可能性を秘めている。 RGBイベント融合は、(i)時間的、(ii)時間的、(iii)モード的不整合の3つの不整合に直面している。本稿では,スパースイベントボクセルを高密度かつ時間的に一貫性のある形式に変換する動き強化イベント(MET)を提案する。
論文参考訳（メタデータ） (2025-05-02T19:19:58Z)
Event-Enhanced Blurry Video Super-Resolution [52.894824081586776]
我々は,低解像度(LR)とぼやけた入力から高解像度(HR)ビデオを生成することを目的とした,ぼやけたビデオ超解像(BVSR)の課題に取り組む。現在のBVSR法は、しばしば高解像度でシャープな詳細を復元するのに失敗し、顕著なアーティファクトとジッターを生み出した。本稿では,BVSR にイベント信号を導入し,新しいイベント強化ネットワーク Ev-DeVSR を提案する。
論文参考訳（メタデータ） (2025-04-17T15:55:41Z)
CM3AE: A Unified RGB Frame and Event-Voxel/-Frame Pre-training Framework [30.734382771657312]
RGBイベント認識のための新しいCM3AE事前学習フレームワークを提案する。このフレームワークは、RGBイメージ、イベントイメージ、イベントボクセルなど、データのマルチモダリティ/ビューを入力として受け入れる。我々は,事前学習のための2,535,759のRGB-Eventデータペアを含む大規模データセットを構築した。
論文参考訳（メタデータ） (2025-04-17T01:49:46Z)
Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration [9.547947845734992]
イベントカメラはバイオインスパイアされたセンサーで、強度の変化を非同期に捉え、イベントストリームを出力する。本稿では, PAST-Act と呼ばれる新しいフレームワークを提案する。私たちはまた、コミュニティの利益のために任意の期間で、ArDVS100という名前の分レベルのイベントベースの認識データセットを構築しました。
論文参考訳（メタデータ） (2024-09-25T14:08:37Z)
HR-INR: Continuous Space-Time Video Super-Resolution via Event Camera [22.208120663778043]
連続時空超解像(C-STVSR)は、任意のスケールで解像度とフレームレートを同時に向上することを目的としている。我々は、暗黙的神経表現(INR)に基づいて、全体依存と局所運動の両方をキャプチャするHR-INRと呼ばれる新しいC-STVSRフレームワークを提案する。次に、時間的埋め込みを持つ新しいINRベースのデコーダを提案し、時間的知覚場を大きくすることで、長期的依存関係をキャプチャする。
論文参考訳（メタデータ） (2024-05-22T06:51:32Z)
CRSOT: Cross-Resolution Object Tracking using Unaligned Frame and Event Cameras [43.699819213559515]
既存のRGB-DVSトラッキング用のデータセットは、DVS346カメラで収集される。我々は、特別に構築されたデータ取得システムを用いて収集された、最初の不整合フレームイベントデータセットCRSOTを構築した。ゆるやかなRGBイベントデータを用いても、ロバストなトラッキングを実現することのできる、新しい非整列オブジェクト追跡フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-05T14:20:22Z)
Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文参考訳（メタデータ） (2023-11-18T08:48:58Z)
Self-Supervised Scene Dynamic Recovery from Rolling Shutter Images and Events [63.984927609545856]
任意の時間間隔間での画素単位のダイナミックさを予測するために,イベントベース/イントラフレーム補償器(E-IC)を提案する。提案手法は,実世界のシナリオにおけるイベントベースRS2GSインバージョンにおいて,顕著な性能を示す。
論文参考訳（メタデータ） (2023-04-14T05:30:02Z)
Dual Memory Aggregation Network for Event-Based Object Detection with Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文参考訳（メタデータ） (2023-03-17T12:12:41Z)
Learning to Super-Resolve Blurry Images with Events [62.61911224564196]
単一運動ブラインド画像(SRB)からの超解像は, 運動ぼけと低空間分解能の合同劣化により, 深刻な問題となる。我々は、SRBの負担を軽減するためにイベントを使用し、イベント強化SRB(E-SRB)アルゴリズムを提案する。提案するeSL-Net++は最先端の手法よりも大きなマージンで優れていることを示す。
論文参考訳（メタデータ） (2023-02-27T13:46:42Z)
Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文参考訳（メタデータ） (2022-04-22T03:17:35Z)
Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文参考訳（メタデータ） (2021-12-16T18:59:47Z)
Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video Super-Resolution [4.9136996406481135]
ビデオ超解像(VSR)は、低解像度(LR)フレームから高解像度(HR)フレームを推定することを目的としている。 VSRの鍵となる課題は、フレーム内の空間的相関と連続フレーム間の時間的依存を効果的に活用することにある。
論文参考訳（メタデータ） (2021-06-14T06:36:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。