論文の概要: See Silhouettes in Motion with Neuromorphic Vision
- arxiv url: http://arxiv.org/abs/2605.17984v1
- Date: Mon, 18 May 2026 07:37:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.000148
- Title: See Silhouettes in Motion with Neuromorphic Vision
- Title(参考訳): ニューロモルフィック・ビジョンによる運動中のシルエットの観察
- Authors: Pei Zhang, Shijie Lin, Zhou Ge, Jinpeng Chen, Wei Pu,
- Abstract要約: 本稿では,CPUのみのデバイス上でのリアルタイムな高フレームレートバイナライゼーションを実現するために,フレームとイベント間のシナジーを利用するデュアルモーダルアプローチを提案する。
我々の研究は、リソース制約されたエッジプラットフォーム上でのインテリジェンスを具現化した、軽量な知覚と相互作用への道を開いた。
- 参考スコア(独自算出の注目度): 15.654863209482231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quasi-bimodal objects, such as text, road signs, and barcodes, play a basic yet vital role in daily visual communication. By boiling these down to clear silhouettes, binarization uses a minimal language to convey essential vision cues for maximum downstream efficiency. The catch is that frame-based imaging often struggles on mobile platforms like drones, self-driving cars, and underwater vehicles. In these dynamic scenes, rapid motion and harsh lighting can make it blind, causing severe motion blur and erasing crucial details. To overcome the limits, neuromorphic vision via event cameras, featuring microsecond-level temporal resolution and high dynamic range, steps in as a natural solution. Building upon this event-driven sensing paradigm, we introduce a simple yet effective dual-modal approach that harnesses the synergy between frames and events to achieve real-time, high-frame-rate binarization on CPU-only devices. Extensive evaluations present that it earns competitive performance against leading techniques in reducing motion blur, while delivering impressive improvements under challenging illumination. Besides, our asynchronous workflow bypasses event scarcity that breaks traditional time-binning reconstruction, maintaining clear target shapes even at extreme kilohertz frame rates. Its binary results further serve as reliable representations that facilitate a range of downstream tasks. This work paves the way towards lightweight perception and interaction in embodied intelligence on resource-constrained edge platforms.
- Abstract(参考訳): テキスト、道路標識、バーコードなどの準バイモーダルなオブジェクトは、日常的な視覚コミュニケーションにおいて基本的な、かつ重要な役割を果たす。
これらをクリアなシルエットに沸騰させることで、バイナライゼーションは最小限の言語を使用して、下流効率の最大化に不可欠な視覚的手がかりを伝達する。
フレームベースの画像は、ドローンや自動運転車、水中車両といったモバイルプラットフォームでしばしば苦労している。
これらのダイナミックなシーンでは、急激な動きと厳しい照明が盲目になり、激しい動きのぼやけや重要な詳細を消去する。
この限界を克服するために、マイクロ秒レベルの時間分解能と高ダイナミックレンジを備えたイベントカメラによるニューロモルフィック・ビジョンが、自然な解決策として登場する。
このイベント駆動センシングパラダイムを基盤として,CPUのみのデバイス上でのリアルタイムな高フレームレートバイナライゼーションを実現するために,フレームとイベント間のシナジーを利用する,シンプルで効果的なデュアルモーダルアプローチを導入する。
広汎な評価は、動作のぼやけを低減するための主要な技術に対して競争力を発揮しながら、挑戦的な照明の下で素晴らしい改善を達成していることを示している。
さらに、非同期ワークフローは、従来の時間結合再構築を破るイベントの不足を回避し、極端なキロヘルツフレームレートでも明確なターゲット形状を維持します。
そのバイナリ結果はさらに、ダウンストリームタスクの範囲を促進する信頼性の高い表現として機能する。
この研究は、リソース制約されたエッジプラットフォーム上でのインテリジェンスにおける軽量な知覚と相互作用への道を開いた。
関連論文リスト
- IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation [58.297199313494]
インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。
本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。
本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
論文 参考訳(メタデータ) (2026-02-07T11:17:20Z) - MotionStream: Real-Time Video Generation with Interactive Motion Controls [60.403597895657505]
単一GPU上で最大29FPSのストリーミング生成が可能なサブ秒レイテンシを実現するMotionStreamを提案する。
提案手法は,グローバルなテキストプロンプトとローカルなモーションガイダンスに準拠する高品質なビデオを生成するが,リアルタイムでは推論を行わないモーションコントロールによるテキスト・ツー・ビデオモデルの拡張から始まる。
我々のモデルでは、動きの追従と映像の質を2桁高速化し、無限長のストリーミングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T06:37:53Z) - Stable Video-Driven Portraits [52.008400639227034]
アニメーションは、ドライビングビデオから表現とポーズを再現することで、単一のソースイメージから写真リアルなビデオを生成することを目的としている。
拡散モデルを用いた最近の進歩は品質の向上を示しているが、弱い制御信号やアーキテクチャ上の制約によって制約されている。
本研究では, 眼, 鼻, 口などのマスク付き顔面領域を, 強力な動き制御手段として活用する新しい拡散型枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:11:08Z) - X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention [52.94097577075215]
X-NeMoはゼロショット拡散ベースのポートレートアニメーションパイプラインである。
異なる人物の運転ビデオから顔の動きを使って、静的な肖像画を撮影する。
論文 参考訳(メタデータ) (2025-07-30T22:46:52Z) - Towards Real-world Event-guided Low-light Video Enhancement and Deblurring [39.942568142125126]
イベントカメラは、低照度環境における画質向上のための有望なソリューションとして登場した。
これらのタスクを効果的に処理するためのエンドツーエンドフレームワークを導入します。
我々のフレームワークは、イベントやフレームからの時間情報を効率的に活用するためのモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2024-08-27T09:44:54Z) - Motion Segmentation for Neuromorphic Aerial Surveillance [42.04157319642197]
イベントカメラは優れた時間分解能、優れたダイナミックレンジ、最小限の電力要件を提供する。
固定間隔で冗長な情報をキャプチャする従来のフレームベースのセンサーとは異なり、イベントカメラは画素レベルの明るさ変化を非同期に記録する。
本稿では,イベントデータと光フロー情報の両方に自己監督型視覚変換器を利用する動き分割手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T04:36:13Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Unified Control Framework for Real-Time Interception and Obstacle Avoidance of Fast-Moving Objects with Diffusion Variational Autoencoder [2.5642257132861923]
動的環境におけるロボットアームによる高速移動物体のリアルタイムインターセプションは、非常に困難な課題である。
本稿では,動的オブジェクトを同時にインターセプトし,移動障害を回避することで,課題に対処する統一的な制御フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-27T18:46:52Z) - Physics Informed Neural Fields for Smoke Reconstruction with Sparse Data [73.8970871148949]
まばらなマルチビューRGBビデオから流体を高忠実に再現することは、まだまだ難しい課題だ。
既存のソリューションは、障害物や照明に関する知識を前提とするか、障害物や複雑な照明のない単純な流体シーンのみに焦点を当てる。
本稿では, 制御物理(Navier-Stokes方程式)をエンドツーエンドの最適化で活用することにより, 動的流体を再構築する最初の方法を提案する。
論文 参考訳(メタデータ) (2022-06-14T03:38:08Z) - Task-Driven Deep Image Enhancement Network for Autonomous Driving in Bad
Weather [5.416049433853457]
悪天候では、視覚的知覚はいくつかの劣化効果によって大きく影響を受ける。
画像の高品質な復元と高精度な知覚の両方に適した高レベルタスクモデルを導くための新しいタスク駆動型トレーニング戦略を導入する。
実験の結果, 提案手法は車線および2次元物体検出の性能を向上し, 主に悪天候下での深度推定が可能であることがわかった。
論文 参考訳(メタデータ) (2021-10-14T08:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。