論文の概要: THOR: Thermal-guided Hand-Object Reasoning via Adaptive Vision Sampling
- arxiv url: http://arxiv.org/abs/2507.06442v1
- Date: Tue, 08 Jul 2025 22:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.414277
- Title: THOR: Thermal-guided Hand-Object Reasoning via Adaptive Vision Sampling
- Title(参考訳): THOR:アダプティブ・ビジョン・サンプリングによる熱誘導型ハンドオブジェクト推論
- Authors: Soroush Shahi, Farzad Shahabi, Rama Nabulsi, Glenn Fernandes, Aggelos Katsaggelos, Nabil Alshurafa,
- Abstract要約: THORはリアルタイム適応時間RGBフレームサンプリング手法である。
低分解能熱カメラデータを用いて、ある手の動きから別の手の動きに切り替えた瞬間を識別する。
本手法は,14名以上の参加者と30名以上の活動者を対象に実験を行い,さらにEgo4Dで評価した。
- 参考スコア(独自算出の注目度): 3.457986591000286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wearable cameras are increasingly used as an observational and interventional tool for human behaviors by providing detailed visual data of hand-related activities. This data can be leveraged to facilitate memory recall for logging of behavior or timely interventions aimed at improving health. However, continuous processing of RGB images from these cameras consumes significant power impacting battery lifetime, generates a large volume of unnecessary video data for post-processing, raises privacy concerns, and requires substantial computational resources for real-time analysis. We introduce THOR, a real-time adaptive spatio-temporal RGB frame sampling method that leverages thermal sensing to capture hand-object patches and classify them in real-time. We use low-resolution thermal camera data to identify moments when a person switches from one hand-related activity to another, and adjust the RGB frame sampling rate by increasing it during activity transitions and reducing it during periods of sustained activity. Additionally, we use the thermal cues from the hand to localize the region of interest (i.e., the hand-object interaction) in each RGB frame, allowing the system to crop and process only the necessary part of the image for activity recognition. We develop a wearable device to validate our method through an in-the-wild study with 14 participants and over 30 activities, and further evaluate it on Ego4D (923 participants across 9 countries, totaling 3,670 hours of video). Our results show that using only 3% of the original RGB video data, our method captures all the activity segments, and achieves hand-related activity recognition F1-score (95%) comparable to using the entire RGB video (94%). Our work provides a more practical path for the longitudinal use of wearable cameras to monitor hand-related activities and health-risk behaviors in real time.
- Abstract(参考訳): ウェアラブルカメラは、手の動きの詳細な視覚的データを提供することによって、人間の行動に対する観察的および介入的ツールとして、ますます利用されている。
このデータは、行動記録のためのメモリリコールや、健康改善を目的としたタイムリーな介入を容易にするために利用することができる。
しかしながら、これらのカメラからのRGB画像の連続処理は、バッテリ寿命に影響を与えるかなりの電力を消費し、後処理のための大量の不要なビデオデータを生成し、プライバシーの懸念を高め、リアルタイム分析にかなりの計算資源を必要とする。
本研究では, 温度センサを用いたリアルタイム適応時空間RGBフレームサンプリング手法THORを導入し, ハンドオブジェクトのパッチを捕捉し, リアルタイムに分類する。
低分解能熱カメラデータを用いて、ある手の動きから別の手の動きに切り替えた瞬間を識別し、活動遷移中にRGBフレームのサンプリング率を増大させ、持続的な活動の期間を短縮することで、RGBフレームのサンプリング率を調整する。
さらに、各RGBフレーム内の関心領域(例えば、手と物体の相互作用)をローカライズするために、手からの熱的手がかりを用いて、システムは活動認識のために画像の必要な部分のみを収穫し、処理することができる。
対象者14名,活動30名を対象に,本手法の検証を行うウェアラブルデバイスを開発し,Ego4D(9カ国923名,計3,670時間ビデオ)で評価した。
以上の結果から,従来のRGBビデオデータの3%のみを用いて全活動セグメントを抽出し,手作業による活動認識F1スコア(95%)をRGBビデオ全体(94%)と比較した。
我々の研究は、手作業や健康リスクをリアルタイムに監視するために、ウェアラブルカメラの経時的使用のための、より実践的なパスを提供する。
関連論文リスト
- Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset [65.76480665062363]
人間の活動認識は主に、高性能な活動認識を実現するために従来のRGBカメラに依存していた。
照明不足や急激な動きといった現実のシナリオにおける課題は、必然的にRGBカメラの性能を低下させる。
本研究では,RGBとイベントカメラを組み合わせることで,人間の活動認識を再考する。
論文 参考訳(メタデータ) (2025-04-08T09:14:24Z) - EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera [17.61884467264023]
本稿では,イベントデータ処理に特化して設計された新しいネットワークアーキテクチャを提案する。
イベントカメラを用いたエゴセントリックなジェスチャー認識のための,最初の大規模データセットを構築した。
本手法は,7Mパラメータのみの未確認被験者に対して62.7%の精度を達成し,最先端手法よりも3.1%高い精度を示した。
論文 参考訳(メタデータ) (2025-03-16T09:08:02Z) - EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting [72.60992807941885]
生物学的ビジョンにインスパイアされたイベントカメラは、時間分解能の高い画素の強度を非同期に記録する。
本稿では,イベントカメラの利点を3DGSにシームレスに統合するイベント支援フリートラジェクトリ3DGSを提案する。
提案手法を,パブリックタンクとテンプルのベンチマークと,新たに収集した実世界のデータセットであるRealEv-DAVISで評価した。
論文 参考訳(メタデータ) (2024-10-20T13:44:24Z) - Cross-view Action Recognition via Contrastive View-invariant
Representation [6.396888111615932]
クロスビュー行動認識は、これまで目に見えない視点から観察された人間の行動を認識しようとする。
RGBビデオ,3Dスケルトンデータ,あるいはその両方から不変機能を学ぶためのフレームワークを提案する。
提案手法は、入力モダリティ間の類似した性能レベルを達成するために、現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-05-02T19:04:29Z) - Event-based tracking of human hands [0.6875312133832077]
イベントカメラは、明るさの変化、動きの測定、低レイテンシ、動きのぼけのない、消費電力の低い、ダイナミックレンジの高い検出を行う。
キャプチャされたフレームは、3次元手の位置データを報告する軽量アルゴリズムを用いて分析される。
論文 参考訳(メタデータ) (2023-04-13T13:43:45Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Event-based Timestamp Image Encoding Network for Human Action
Recognition and Anticipation [0.0]
イベントデータの極性情報を入力としてエンコードした空間時空間画像を取り出し、アクションラベルを出力するタイムスタンプ画像符号化2Dネットワークを提案する。
実験結果から,本手法は実世界行動認識におけるRGBベースのベンチマークと同等の性能を達成できることが示された。
将来のタイムスタンプ画像生成モデルは、アクションが完了していない場合に予測精度を効果的に改善できます。
論文 参考訳(メタデータ) (2021-04-12T00:43:31Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Event-based visual place recognition with ensembles of temporal windows [29.6328152991222]
イベントカメラは、低レイテンシと高レンジで連続的なイベントストリームを提供することができるバイオインスパイアされたセンサーである。
我々は,異なる長さの時間ウィンドウを並列に処理する,アンサンブルに基づく新しい手法を開発した。
提案するアンサンブル方式は, 単ウィンドウベースラインや従来のモデルベースアンサンブルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-22T05:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。