論文の概要: A Real-Time System for Egocentric Hand-Object Interaction Detection in Industrial Domains
- arxiv url: http://arxiv.org/abs/2507.13326v1
- Date: Thu, 17 Jul 2025 17:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.605015
- Title: A Real-Time System for Egocentric Hand-Object Interaction Detection in Industrial Domains
- Title(参考訳): 産業領域における自己中心型手動物体干渉検出のためのリアルタイムシステム
- Authors: Antonio Finocchiaro, Alessandro Sebastiano Catinello, Michele Mazzamuto, Rosario Leonardi, Antonino Furnari, Giovanni Maria Farinella,
- Abstract要約: 本稿では,ストリーミング・エゴセントリック・ビジョンから手動物体の相互作用を検出するための効率的な手法を提案する。
本手法は,動作認識モジュールとオブジェクト検出モジュールからなり,対話の確認時にアクティブなオブジェクトを識別する。
- 参考スコア(独自算出の注目度): 48.42136244433369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand-object interaction detection remains an open challenge in real-time applications, where intuitive user experiences depend on fast and accurate detection of interactions with surrounding objects. We propose an efficient approach for detecting hand-objects interactions from streaming egocentric vision that operates in real time. Our approach consists of an action recognition module and an object detection module for identifying active objects upon confirmed interaction. Our Mamba model with EfficientNetV2 as backbone for action recognition achieves 38.52% p-AP on the ENIGMA-51 benchmark at 30fps, while our fine-tuned YOLOWorld reaches 85.13% AP for hand and object. We implement our models in a cascaded architecture where the action recognition and object detection modules operate sequentially. When the action recognition predicts a contact state, it activates the object detection module, which in turn performs inference on the relevant frame to detect and classify the active object.
- Abstract(参考訳): リアルタイムアプリケーションでは、直感的なユーザエクスペリエンスが、周囲のオブジェクトとのインタラクションの迅速かつ正確な検出に依存するため、手動オブジェクトのインタラクション検出は依然としてオープンな課題である。
本稿では,リアルタイムに動作するストリーミングエゴセントリックな視覚から手動物体の相互作用を検出するための効率的な手法を提案する。
本手法は,動作認識モジュールとオブジェクト検出モジュールからなり,対話の確認時にアクティブなオブジェクトを識別する。
EfficientNetV2をバックボーンとした我々のMambaモデルは、ENIGMA-51ベンチマークで30fpsで38.52%のp-APを達成する。
我々は、アクション認識とオブジェクト検出モジュールが順次動作するカスケードアーキテクチャでモデルを実装した。
アクション認識が接触状態を予測すると、オブジェクト検出モジュールを起動し、関連するフレーム上で推論を行い、アクティブなオブジェクトを検出して分類する。
関連論文リスト
- Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - Uncertainty-Guided Appearance-Motion Association Network for Out-of-Distribution Action Detection [4.938957922033169]
セマンティックシフトでテストサンプルを検出し、拒否するOOD(Out-of-Distribution)検出ターゲット。
我々は,新しい不確実性誘導外観運動ネットワーク(UAAN)を提案する。
UAANは最先端の手法をかなりの差で打ち負かし、その効果を実証する。
論文 参考訳(メタデータ) (2024-09-16T02:53:49Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - SeMoLi: What Moves Together Belongs Together [51.72754014130369]
動作手がかりに基づく半教師付き物体検出に挑戦する。
近年,移動物体の擬似ラベルインスタンスに対して,動きに基づくクラスタリング手法が適用可能であることが示唆された。
我々は、このアプローチを再考し、オブジェクト検出とモーションインスパイアされた擬似ラベルの両方が、データ駆動方式で取り組めることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T18:54:53Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Sequential Decision-Making for Active Object Detection from Hand [43.839322860501596]
手動オブジェクトの相互作用を理解する重要な要素は、アクティブオブジェクトを識別する能力である。
我々は,手の位置と外観を条件とした逐次的意思決定プロセスとして,能動物体検出手法を構築した。
このアプローチの主な革新は、Box Fieldと呼ばれる内部表現を使用するアクティブオブジェクト検出ポリシーの設計です。
論文 参考訳(メタデータ) (2021-10-21T23:40:45Z) - Object-Driven Active Mapping for More Accurate Object Pose Estimation
and Robotic Grasping [5.385583891213281]
このフレームワークは、オブジェクトSLAMシステム上に構築され、同時多目的ポーズ推定プロセスと統合される。
マッピングモジュールと探索戦略を組み合わせることにより、ロボットの把握と互換性のある正確なオブジェクトマップを生成することができる。
論文 参考訳(メタデータ) (2020-12-03T09:36:55Z) - Slender Object Detection: Diagnoses and Improvements [74.40792217534]
本稿では,超高アスペクト比,すなわちtextbfslender オブジェクトの特定タイプの検出について検討する。
古典的物体検出法では、細い物体に対してのみ評価される場合、COCO上の18.9%のmAPの劇的な低下が観察される。
論文 参考訳(メタデータ) (2020-11-17T09:39:42Z) - Attention-Oriented Action Recognition for Real-Time Human-Robot
Interaction [11.285529781751984]
本稿では,リアルタイムインタラクションの必要性に応えるために,アテンション指向のマルチレベルネットワークフレームワークを提案する。
具体的には、プレアテンションネットワークを使用して、低解像度でシーン内のインタラクションに大まかにフォーカスする。
他のコンパクトCNNは、抽出されたスケルトンシーケンスをアクション認識用の入力として受信する。
論文 参考訳(メタデータ) (2020-07-02T12:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。