論文の概要: ControlEvents: Controllable Synthesis of Event Camera Datawith Foundational Prior from Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.22864v1
- Date: Fri, 26 Sep 2025 19:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.91669
- Title: ControlEvents: Controllable Synthesis of Event Camera Datawith Foundational Prior from Image Diffusion Models
- Title(参考訳): ControlEvents: 画像拡散モデルに基づく基本データを用いたイベントカメラデータの制御可能な合成
- Authors: Yixuan Hu, Yuxuan Xue, Simon Klenk, Daniel Cremers, Gerard Pons-Moll,
- Abstract要約: 本稿では,多様な制御信号によって誘導される高品質なイベントデータを合成するために,拡散に基づく生成モデルを提案する。
視覚認識, 2次元骨格推定, 3次元身体ポーズ推定のためのイベントデータを合成することで, 本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 61.17744115607788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, event cameras have gained significant attention due to their bio-inspired properties, such as high temporal resolution and high dynamic range. However, obtaining large-scale labeled ground-truth data for event-based vision tasks remains challenging and costly. In this paper, we present ControlEvents, a diffusion-based generative model designed to synthesize high-quality event data guided by diverse control signals such as class text labels, 2D skeletons, and 3D body poses. Our key insight is to leverage the diffusion prior from foundation models, such as Stable Diffusion, enabling high-quality event data generation with minimal fine-tuning and limited labeled data. Our method streamlines the data generation process and significantly reduces the cost of producing labeled event datasets. We demonstrate the effectiveness of our approach by synthesizing event data for visual recognition, 2D skeleton estimation, and 3D body pose estimation. Our experiments show that the synthesized labeled event data enhances model performance in all tasks. Additionally, our approach can generate events based on unseen text labels during training, illustrating the powerful text-based generation capabilities inherited from foundation models.
- Abstract(参考訳): 近年,高時間分解能や高ダイナミックレンジなど,生物に触発された特性により,イベントカメラが注目されている。
しかし、イベントベースの視覚タスクにおいて、大規模にラベル付けされた地味データを取得することは、依然として困難かつコストがかかる。
本稿では,クラステキストラベルや2Dスケルトン,3Dボディーポーズなどの多様な制御信号によって誘導される高品質なイベントデータを合成する拡散型生成モデルであるControlEventsを提案する。
我々の重要な洞察は、安定拡散のような基礎モデルからの拡散を利用して、最小限の微調整と限定されたラベル付きデータで高品質なイベントデータ生成を可能にすることである。
本手法は,データ生成プロセスの合理化を図り,ラベル付きイベントデータセットの生成コストを大幅に削減する。
視覚認識, 2次元骨格推定, 3次元身体ポーズ推定のためのイベントデータを合成することで, 本手法の有効性を実証する。
実験の結果,合成したラベル付きイベントデータにより,全てのタスクにおけるモデル性能が向上することがわかった。
さらに,本手法では,基礎モデルから受け継いだ強力なテキストベース生成機能について,未確認のテキストラベルに基づくイベントを生成することができる。
関連論文リスト
- Revealing Latent Information: A Physics-inspired Self-supervised Pre-training Framework for Noisy and Sparse Events [25.348660233701708]
イベントカメラは、高時間分解能と広ダイナミックレンジでデータを記録する。
イベントデータは本質的にスパースでノイズが多く、主に明るさの変化を反映している。
本稿では,イベントデータ中の潜伏情報を完全に明らかにする自己教師付き事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T15:38:36Z) - Controlling Avatar Diffusion with Learnable Gaussian Embedding [27.651478116386354]
我々は、最適化可能で、密度が高く、表現可能で、3次元一貫した新しい制御信号表現を導入する。
複数のポーズとアイデンティティを持つ大規模データセットを合成する。
我々のモデルは、現実主義、表現性、および3次元整合性の観点から、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2025-03-20T02:52:01Z) - 3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing [52.68314936128752]
本研究では,事前学習された大規模基盤モデルのパワーを活用して,3次元ラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。
各ターゲットセマンティッククラスに対して、まず、拡散モデルとチャットGPT生成したテキストプロンプトを介して、様々な構造と外観の1つのオブジェクトの2D画像を生成する。
我々は、これらの拡張画像を3Dオブジェクトに変換し、ランダムな合成によって仮想シーンを構築する。
論文 参考訳(メタデータ) (2024-08-25T09:31:22Z) - Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection [59.33188668341604]
3次元物体検出は、自律運転知覚の基本的なタスクとして機能する。
ポイントクラウドデータのための高品質なアノテーションを得るためには、コストがかかる。
本稿では,適応型合成シーンを生成するために,ハードネス対応シーン合成(HASS)手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:23Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Exploring Event-based Human Pose Estimation with 3D Event Representations [26.34100847541989]
我々は、Rasterized Event Point Cloud(Ras EPC)とDecoupled Event Voxel(DEV)の2つの3Dイベント表現を紹介した。
Ras EPCは、簡潔な時間スライス内のイベントを同じ位置で集約し、それらの3D属性を統計情報と共に保存し、メモリと計算要求を大幅に削減する。
提案手法は,DHP19公開データセット,MMHPSDデータセット,EV-3DPWデータセットで検証し,誘導駆動シーンデータセットEV-JAADと屋外収集車両によるさらなる定性検証を行った。
論文 参考訳(メタデータ) (2023-11-08T10:45:09Z) - EventMix: An Efficient Augmentation Strategy for Event-Based Data [4.8416725611508244]
イベントカメラは、高ダイナミックレンジと低エネルギーのイベントストリームデータを提供することができる。
スケールは従来のフレームベースのデータよりも小さく、入手が難しい。
本稿では,イベントストリームデータに対する効率的なデータ拡張戦略であるEventMixを提案する。
論文 参考訳(メタデータ) (2022-05-24T13:07:33Z) - Event Data Association via Robust Model Fitting for Event-based Object Tracking [4.36706221903271]
本稿では,イベントアソシエーションと融合問題に明示的に対処する新しいイベントデータアソシエーション(EDA)手法を提案する。
提案するEDAは、統合データアソシエーションと情報融合を行うために、イベントデータに最も適したイベントトラジェクトリを求める。
実験結果から,高速,運動のぼやけ,高ダイナミックレンジ条件といった難易度シナリオ下でのEDAの有効性が示された。
論文 参考訳(メタデータ) (2021-10-25T13:56:00Z) - Robust Event Classification Using Imperfect Real-world PMU Data [58.26737360525643]
本研究では,不完全な実世界のファサー計測単位(PMU)データを用いて,ロバストな事象分類について検討する。
我々は、堅牢なイベント分類器を訓練するための新しい機械学習フレームワークを開発する。
論文 参考訳(メタデータ) (2021-10-19T17:41:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。