論文の概要: Neuromorphic Synergy for Video Binarization
- arxiv url: http://arxiv.org/abs/2402.12644v1
- Date: Tue, 20 Feb 2024 01:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 17:36:43.841826
- Title: Neuromorphic Synergy for Video Binarization
- Title(参考訳): ビデオバイナリ化のためのニューロモルフィックシナジー
- Authors: Shijie Lin, Xiang Zhang, Lei Yang, Lei Yu, Bin Zhou, Xiaowei Luo,
Wenping Wang, and Jia Pan
- Abstract要約: バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
- 参考スコア(独自算出の注目度): 54.195375576583864
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Bimodal objects, such as the checkerboard pattern used in camera calibration,
markers for object tracking, and text on road signs, to name a few, are
prevalent in our daily lives and serve as a visual form to embed information
that can be easily recognized by vision systems. While binarization from
intensity images is crucial for extracting the embedded information in the
bimodal objects, few previous works consider the task of binarization of blurry
images due to the relative motion between the vision sensor and the
environment. The blurry images can result in a loss in the binarization quality
and thus degrade the downstream applications where the vision system is in
motion. Recently, neuromorphic cameras offer new capabilities for alleviating
motion blur, but it is non-trivial to first deblur and then binarize the images
in a real-time manner. In this work, we propose an event-based binary
reconstruction method that leverages the prior knowledge of the bimodal
target's properties to perform inference independently in both event space and
image space and merge the results from both domains to generate a sharp binary
image. We also develop an efficient integration method to propagate this binary
image to high frame rate binary video. Finally, we develop a novel method to
naturally fuse events and images for unsupervised threshold identification. The
proposed method is evaluated in publicly available and our collected data
sequence, and shows the proposed method can outperform the SOTA methods to
generate high frame rate binary video in real-time on CPU-only devices.
- Abstract(参考訳): カメラのキャリブレーションに用いられるチェッカーボードパターン、物体追跡用のマーカー、道路標識のテキストといったバイモーダルオブジェクトは、私たちの日常生活で一般的であり、視覚システムによって容易に認識できる情報を埋め込みするためのビジュアルフォームとして機能します。
インテンシティ画像からの2値化はバイモーダルオブジェクトの埋め込み情報を抽出するのに不可欠であるが、視覚センサと環境との相対的な動きによるぼやけた画像の2値化の課題を考える先行研究は少ない。
ぼやけた画像は2値化の品質を低下させ、ビジョンシステムが動いている下流のアプリケーションを劣化させる可能性がある。
近年、ニューロモルフィックカメラは、動きのぼかしを緩和する新たな機能を提供しているが、まず画像をリアルタイムにバイナライズするのは容易ではない。
本研究では,bimodal targetの特性の事前知識を活用して,イベント空間と画像空間の両方において独立に推論を行い,両方の領域から結果をマージして鋭いバイナリ画像を生成する,イベントベースのバイナリ再構成手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法を開発した。
最後に,教師なし閾値同定のためのイベントとイメージを自然に融合する新しい手法を開発した。
提案手法は一般に利用可能かつ収集されたデータ列で評価され,提案手法はcpuのみのデバイスでリアルタイムに高フレームレートバイナリビデオを生成するsoma法よりも優れることを示す。
関連論文リスト
- SITAR: Semi-supervised Image Transformer for Action Recognition [20.609596080624662]
本稿では,少数のラベル付きビデオを利用する半教師付き環境での映像行動認識について述べる。
我々は、ラベルなしサンプルの膨大なプールを利用して、エンコードされたスーパーイメージに対して対照的な学習を行う。
本手法は,従来の半教師あり行動認識手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T17:49:54Z) - CMTA: Cross-Modal Temporal Alignment for Event-guided Video Deblurring [44.30048301161034]
ビデオデブロアリングは、隣接するビデオフレームから情報を集めることで、モーションレッドビデオの復元結果の品質を高めることを目的としている。
1) フレーム内機能拡張は, 単一のぼやけたフレームの露出時間内で動作し, 2) フレーム間時間的特徴アライメントは, 重要な長期時間情報を対象のフレームに収集する。
提案手法は, 合成および実世界のデブロアリングデータセットを用いた広範囲な実験により, 最先端のフレームベースおよびイベントベース動作デブロアリング法より優れていることを示す。
論文 参考訳(メタデータ) (2024-08-27T10:09:17Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - Combined CNN Transformer Encoder for Enhanced Fine-grained Human Action
Recognition [11.116921653535226]
本稿では,CNNビジョンバックボーンとTransformerを組み合わせた2つのフレームワークについて検討する。
実験の結果,トランスフォーマーエンコーダフレームワークはいずれも,潜時的意味論と相互モダリティ関連を効果的に学習していることがわかった。
我々は,両アーキテクチャのFinGymベンチマークデータセットに対して,最先端性能を新たに実現した。
論文 参考訳(メタデータ) (2022-08-03T08:01:55Z) - Recent Trends in 2D Object Detection and Applications in Video Event
Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。
本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文 参考訳(メタデータ) (2022-02-07T14:15:11Z) - Dual-view Snapshot Compressive Imaging via Optical Flow Aided Recurrent
Neural Network [14.796204921975733]
デュアルビュースナップショット圧縮イメージング(SCI)は、2つの視野(FoV)からのビデオを1つのスナップショットでキャプチャすることを目的としている。
既存のモデルベースの復号アルゴリズムでは個々のシーンを再構築することは困難である。
本稿では,2重ビデオSCIシステムのための光フロー支援型リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-11T14:24:44Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。