論文の概要: YCB-Ev SD: Synthetic event-vision dataset for 6DoF object pose estimation
- arxiv url: http://arxiv.org/abs/2511.11344v1
- Date: Fri, 14 Nov 2025 14:32:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.651349
- Title: YCB-Ev SD: Synthetic event-vision dataset for 6DoF object pose estimation
- Title(参考訳): YCB-Ev SD:6DoFオブジェクトポーズ推定のための合成イベントビジョンデータセット
- Authors: Pavel Rojtberg, Julius Kühn,
- Abstract要約: YCB-Ev SDは6DoFオブジェクトのポーズ推定のための標準定義(SD)におけるイベントカメラデータのデータセットである。
物理ベースレンダリングシーンから合成した34ms間隔のイベントシーケンスを5万件提示する。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce YCB-Ev SD, a synthetic dataset of event-camera data at standard definition (SD) resolution for 6DoF object pose estimation. While synthetic data has become fundamental in frame-based computer vision, event-based vision lacks comparable comprehensive resources. Addressing this gap, we present 50,000 event sequences of 34 ms duration each, synthesized from Physically Based Rendering (PBR) scenes of YCB-Video objects following the Benchmark for 6D Object Pose (BOP) methodology. Our generation framework employs simulated linear camera motion to ensure complete scene coverage, including background activity. Through systematic evaluation of event representations for CNN-based inference, we demonstrate that time-surfaces with linear decay and dual-channel polarity encoding achieve superior pose estimation performance, outperforming exponential decay and single-channel alternatives by significant margins. Our analysis reveals that polarity information contributes most substantially to performance gains, while linear temporal encoding preserves critical motion information more effectively than exponential decay. The dataset is provided in a structured format with both raw event streams and precomputed optimal representations to facilitate immediate research use and reproducible benchmarking. The dataset is publicly available at https://huggingface.co/datasets/paroj/ycbev_sd.
- Abstract(参考訳): 6DoFオブジェクトのポーズ推定のための標準定義(SD)におけるイベントカメラデータの合成データセットであるYCB-Ev SDを導入する。
合成データは、フレームベースのコンピュータビジョンにおいて基本となっているが、イベントベースのビジョンは、同等の包括的なリソースを欠いている。
このギャップに対処するため,YCB-Video Objects Benchmark for 6D Object Pose (BOP) 手法に従って,PBR (Physically Based Rendering) シーンから合成した34ミリ秒間のイベントシーケンスを5万件提示する。
我々の生成フレームワークは、背景活動を含むシーンの完全なカバレッジを確保するために、シミュレーションされたリニアカメラモーションを使用している。
CNNに基づく推論のイベント表現を体系的に評価することにより、線形減衰と二重チャネル極性符号化による時間曲面が、優れたポーズ推定性能、指数的減衰、単一チャネルの代替品を顕著なマージンで上回ることを示す。
解析の結果,極性情報は性能向上に大きく寄与し,線形時間符号化は指数減衰よりも臨界運動情報を効果的に保存することがわかった。
データセットは、生のイベントストリームと事前計算された最適な表現の両方を備えた構造化フォーマットで提供され、即時の研究と再現可能なベンチマークを容易にする。
データセットはhttps://huggingface.co/datasets/paroj/ycbev_sdで公開されている。
関連論文リスト
- 4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration [31.111439909825627]
既存の手法は通常、単純な観察を入力としてデータセットのアクション分布をモデル化する。
カオスの源泉への入力に、4D情報を効果的に統合する新しいアプローチである4D-VLAを提案する。
我々のモデルは既存の手法を常に上回り、より強い空間的理解と適応性を示す。
論文 参考訳(メタデータ) (2025-06-27T14:09:29Z) - ESVO2: Direct Visual-Inertial Odometry with Stereo Event Cameras [41.992980062962495]
イベントベースビジュアル・オドメトリーは、追跡とサブプロブレムのマッピング(典型的には並列)を解決することを目的としている
直接パイプライン上に,イベントベースのステレオビジュアル慣性オドメトリーシステムを構築した。
結果として得られるシステムは、現代の高解像度のイベントカメラでうまくスケールする。
論文 参考訳(メタデータ) (2024-10-12T05:35:27Z) - OmniPose6D: Towards Short-Term Object Pose Tracking in Dynamic Scenes from Monocular RGB [40.62577054196799]
実環境の多様性を反映した大規模合成データセットOmniPose6Dを提案する。
本稿では,ポーズ追跡アルゴリズムの総合的な比較のためのベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-09T09:01:40Z) - Evaluating Image-Based Face and Eye Tracking with Event Cameras [9.677797822200965]
イベントカメラはニューロモルフィックセンサーとしても知られており、ピクセルレベルの局所光強度の変化を捉え、非同期に生成されたイベントと呼ばれるデータを生成する。
このデータフォーマットは、高速で動く物体を撮影する際のアンダーサンプリングのような、従来のカメラで観察される一般的な問題を緩和する。
我々は、従来のアルゴリズムとイベントベースのデータを統合することにより、フレーム形式に変換される可能性を評価する。
論文 参考訳(メタデータ) (2024-08-19T20:27:08Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Self-Supervised Scene Dynamic Recovery from Rolling Shutter Images and
Events [63.984927609545856]
任意の時間間隔間での画素単位のダイナミックさを予測するために,イベントベース/イントラフレーム補償器(E-IC)を提案する。
提案手法は,実世界のシナリオにおけるイベントベースRS2GSインバージョンにおいて,顕著な性能を示す。
論文 参考訳(メタデータ) (2023-04-14T05:30:02Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。