論文の概要: V2V: Scaling Event-Based Vision through Efficient Video-to-Voxel Simulation
- arxiv url: http://arxiv.org/abs/2505.16797v1
- Date: Thu, 22 May 2025 15:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.406901
- Title: V2V: Scaling Event-Based Vision through Efficient Video-to-Voxel Simulation
- Title(参考訳): V2V:効率的なビデオ対ボクセルシミュレーションによるイベントベースビジョンのスケーリング
- Authors: Hanyue Lou, Jinxiu Liang, Minggui Teng, Yi Wang, Boxin Shi,
- Abstract要約: イベントベースのカメラは、高時間分解能、高ダイナミックレンジ、低消費電力などのユニークな利点を提供する。
大規模なストレージ要件とI/O負荷により、イベントベースのトレーニングデータセットのスケールアップが防止される。
従来のビデオフレームを直接イベントベースのボクセルグリッド表現に変換するアプローチであるV2V(Video-to-Voxel)を導入する。
- 参考スコア(独自算出の注目度): 48.645209431511596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event-based cameras offer unique advantages such as high temporal resolution, high dynamic range, and low power consumption. However, the massive storage requirements and I/O burdens of existing synthetic data generation pipelines and the scarcity of real data prevent event-based training datasets from scaling up, limiting the development and generalization capabilities of event vision models. To address this challenge, we introduce Video-to-Voxel (V2V), an approach that directly converts conventional video frames into event-based voxel grid representations, bypassing the storage-intensive event stream generation entirely. V2V enables a 150 times reduction in storage requirements while supporting on-the-fly parameter randomization for enhanced model robustness. Leveraging this efficiency, we train several video reconstruction and optical flow estimation model architectures on 10,000 diverse videos totaling 52 hours--an order of magnitude larger than existing event datasets, yielding substantial improvements.
- Abstract(参考訳): イベントベースのカメラは、高時間分解能、高ダイナミックレンジ、低消費電力などのユニークな利点を提供する。
しかし、既存の合成データ生成パイプラインの膨大なストレージ要件とI/O負荷、および実際のデータの不足により、イベントベースのトレーニングデータセットのスケールアップが防止され、イベントビジョンモデルの開発と一般化能力が制限される。
この課題に対処するために,従来のビデオフレームをイベントベースのボクセルグリッド表現に変換するアプローチであるV2V(Video-to-Voxel)を導入する。
V2Vは、強化されたモデルロバスト性のためにオンザフライパラメータランダム化をサポートしながら、ストレージ要求を150倍削減できる。
この効率を生かして、既存のイベントデータセットよりも桁違いに大きい1万の多様なビデオに対して、ビデオ再構成と光フロー推定モデルアーキテクチャをトレーニングし、大幅に改善した。
関連論文リスト
- EGVD: Event-Guided Video Diffusion Model for Physically Realistic Large-Motion Frame Interpolation [16.22243283808375]
Event-Guided Video Diffusion Model (EGVD) は、事前訓練された安定したビデオ拡散モデルの強力な先行性を活用する新しいフレームワークである。
提案手法は,RGBフレームとイベント信号とを効果的に統合して拡散過程を導出するマルチモーダル運動条件生成器(MMCG)を特徴とする。
実データとシミュレーションデータの両方の実験により、EGVDは大きな動きを扱う既存の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-03-26T06:33:32Z) - FlashVideo: Flowing Fidelity to Detail for Efficient High-Resolution Video Generation [61.61415607972597]
DiT拡散モデルは、モデルキャパシティとデータスケールのスケーラビリティを活用して、テキスト・ビデオ生成において大きな成功を収めた。
しかし、テキストプロンプトに一致した高い内容と動きの忠実度は、しばしば大きなモデルパラメータとかなりの数の関数評価(NFE)を必要とする。
本稿では,モデルキャパシティとNFEを戦略的に割り当て,生成精度と品質のバランスをとる新しい2つのステージフレームワークであるFlashVideoを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:59:59Z) - Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。
新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。
メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T21:53:11Z) - Making Every Frame Matter: Continuous Activity Recognition in Streaming Video via Adaptive Video Context Modeling [19.205142489726875]
ビデオのアクティビティ認識は、ロボットやAIの具体化においてますます重要になっている。
適応型ビデオコンテキストモデリングにより,これらの問題を克服するための新しいシステムCARSを導入する。
当社のCARSは、一般的なエッジデバイス上で30FPS以上の速度で動作し、すべてのベースラインを1.2%から79.7%の精度で上回っている。
論文 参考訳(メタデータ) (2024-10-19T05:50:00Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - HyperE2VID: Improving Event-Based Video Reconstruction via Hypernetworks [16.432164340779266]
イベントベースビデオ再構成のための動的ニューラルネットワークアーキテクチャであるHyperE2VIDを提案する。
提案手法では,ハイパーネットワークを用いてコンテキスト融合モジュールによって誘導される画素ごとの適応フィルタを生成する。
論文 参考訳(メタデータ) (2023-05-10T18:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。