論文の概要: Leveraging RGB Images for Pre-Training of Event-Based Hand Pose Estimation
- arxiv url: http://arxiv.org/abs/2509.16949v1
- Date: Sun, 21 Sep 2025 07:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.049432
- Title: Leveraging RGB Images for Pre-Training of Event-Based Hand Pose Estimation
- Title(参考訳): イベントベースハンドポース推定のためのRGB画像の活用
- Authors: Ruicong Liu, Takehiko Ohkawa, Tze Ho Elden Tse, Mingfang Zhang, Angela Yao, Yoichi Sato,
- Abstract要約: RPEPはラベル付きRGB画像と未ラベルのイベントデータを用いたイベントベースの3次元ポーズ推定のための最初の事前学習手法である。
EvRealHandsの24%の改善を達成し、実イベントデータにおける最先端の手法を著しく上回る結果となった。
- 参考スコア(独自算出の注目度): 64.8814078041756
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents RPEP, the first pre-training method for event-based 3D hand pose estimation using labeled RGB images and unpaired, unlabeled event data. Event data offer significant benefits such as high temporal resolution and low latency, but their application to hand pose estimation is still limited by the scarcity of labeled training data. To address this, we repurpose real RGB datasets to train event-based estimators. This is done by constructing pseudo-event-RGB pairs, where event data is generated and aligned with the ground-truth poses of RGB images. Unfortunately, existing pseudo-event generation techniques assume stationary objects, thus struggling to handle non-stationary, dynamically moving hands. To overcome this, RPEP introduces a novel generation strategy that decomposes hand movements into smaller, step-by-step motions. This decomposition allows our method to capture temporal changes in articulation, constructing more realistic event data for a moving hand. Additionally, RPEP imposes a motion reversal constraint, regularizing event generation using reversed motion. Extensive experiments show that our pre-trained model significantly outperforms state-of-the-art methods on real event data, achieving up to 24% improvement on EvRealHands. Moreover, it delivers strong performance with minimal labeled samples for fine-tuning, making it well-suited for practical deployment.
- Abstract(参考訳): 本稿では,ラベル付きRGB画像と未ラベルのイベントデータを用いたイベントベース3Dハンドポーズ推定のための,最初の事前学習手法であるRPEPを提案する。
イベントデータは、高時間分解能や低レイテンシなどの大きなメリットを提供するが、ラベル付きトレーニングデータの不足により、手動ポーズ推定のアプリケーションは依然として制限されている。
これを解決するために、実際のRGBデータセットを再利用して、イベントベースの推定器をトレーニングします。
これは、イベントデータが生成され、RGB画像のグランドトルースポーズと整合する擬似イベント-RGBペアを構築することで実現される。
残念ながら、既存の擬似イベント生成技術は静止物体を前提としており、非定常で動的に動く手を扱うのに苦労している。
これを解決するために、RPEPは手の動きを小さなステップバイステップの動作に分解する新しい生成戦略を導入した。
この分解により,動作する手のためのより現実的なイベントデータを構築することで,音声の時間的変化を捉えることができる。
さらに、RPEPは動き反転制約を課し、逆動きを用いたイベント生成を規則化する。
EvRealHandsで最大24%の改善を達成し、実イベントデータ上で、事前学習したモデルが最先端の手法を著しく上回ることを示す。
さらに、最小限のラベル付きサンプルを使用して、微調整で強力なパフォーマンスを提供し、実用的なデプロイメントに適している。
関連論文リスト
- PEPR: Privileged Event-based Predictive Regularization for Domain Generalization [19.185122873391517]
本稿では,厳密な単一モダリティRGBモデルをトレーニングするための特権情報(LUPI)パラダイムを用いた学習環境下でのクロスモーダルフレームワークを提案する。
イベントカメラを特権情報のソースとして利用し、トレーニング中にのみ利用可能です。
RGBエンコーダをPEPRでトレーニングし、イベントベースの潜伏特性を予測し、意味豊かさを犠牲にすることなくロバスト性を蒸留する。
論文 参考訳(メタデータ) (2026-02-04T14:10:36Z) - Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking [51.31378940976401]
既存のRGB-Eventトラッキングアプローチでは、イベントカメラのユニークな利点を完全に活用できない。
本稿では,周波数領域の早期融合を実現する新しい追跡フレームワークを提案する。
FE108, FELT, COESOTなど, 広く使用されている3つのRGB-Event追跡ベンチマークデータセットの実験により, 提案手法の性能と効率を実証した。
論文 参考訳(メタデータ) (2026-01-03T01:10:17Z) - Frequency-Adaptive Low-Latency Object Detection Using Events and Frames [23.786369609995013]
オブジェクト検出のためのFusing EventsとRGBイメージは、悪環境におけるEvent Cameraの堅牢性を活用する。
2つの重要なミスマッチ:低遅延イベント textitvs.high-latency RGB frame と時間的にスパースなラベル。
textbfFrequency-textbfAdaptive Low-Latency textbfObject textbfDetector (FAOD)を提案する。
論文 参考訳(メタデータ) (2024-12-05T13:23:06Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - EvDNeRF: Reconstructing Event Data with Dynamic Neural Radiance Fields [80.94515892378053]
EvDNeRFは、イベントデータを生成し、イベントベースの動的NeRFをトレーニングするためのパイプラインである。
NeRFは幾何学ベースの学習可能なレンダリングを提供するが、イベントの以前の作業は静的なシーンの再構築のみを考慮していた。
各種イベントのバッチサイズをトレーニングすることにより、微細な時間解像度でイベントのテスト時間予測を改善することができることを示す。
論文 参考訳(メタデータ) (2023-10-03T21:08:41Z) - Deformable Neural Radiance Fields using RGB and Event Cameras [65.40527279809474]
我々は,RGBとイベントカメラを用いた変形可能なニューラル放射場をモデル化する新しい手法を開発した。
提案手法は,イベントの非同期ストリームと疎RGBフレームを用いる。
現実的にレンダリングされたグラフィックと実世界のデータセットの両方で実施された実験は、提案手法の有益性を実証している。
論文 参考訳(メタデータ) (2023-09-15T14:19:36Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Event-based Image Deblurring with Dynamic Motion Awareness [10.81953574179206]
露光時間における実RGBのぼかし画像と関連する事象のペアを含む最初のデータセットを紹介する。
以上の結果より,PSNRは合成データで1.57dB,実イベントデータで1.08dBまで改善された。
論文 参考訳(メタデータ) (2022-08-24T09:39:55Z) - Lifting Monocular Events to 3D Human Poses [22.699272716854967]
本稿では,非同期イベントの単一ストリームを入力として用いる新しい3次元ポーズ推定手法を提案する。
単一のイベントストリームから3D人間のポーズを学習する最初の方法を提案します。
実験により,本手法は,標準RGBとイベントベースビジョン間の性能ギャップを狭め,精度が向上することを示した。
論文 参考訳(メタデータ) (2021-04-21T16:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。