論文の概要: Egocentric RGB+Depth Action Recognition in Industry-Like Settings
- arxiv url: http://arxiv.org/abs/2309.13962v1
- Date: Mon, 25 Sep 2023 08:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 16:20:38.195999
- Title: Egocentric RGB+Depth Action Recognition in Industry-Like Settings
- Title(参考訳): 産業風環境における自我中心RGB+深度行動認識
- Authors: Jyoti Kini, Sarah Fleischer, Ishan Dave, Mubarak Shah
- Abstract要約: 本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
- 参考スコア(独自算出の注目度): 50.38638300332429
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Action recognition from an egocentric viewpoint is a crucial perception task
in robotics and enables a wide range of human-robot interactions. While most
computer vision approaches prioritize the RGB camera, the Depth modality -
which can further amplify the subtleties of actions from an egocentric
perspective - remains underexplored. Our work focuses on recognizing actions
from egocentric RGB and Depth modalities in an industry-like environment. To
study this problem, we consider the recent MECCANO dataset, which provides a
wide range of assembling actions. Our framework is based on the 3D Video SWIN
Transformer to encode both RGB and Depth modalities effectively. To address the
inherent skewness in real-world multimodal action occurrences, we propose a
training strategy using an exponentially decaying variant of the focal loss
modulating factor. Additionally, to leverage the information in both RGB and
Depth modalities, we opt for late fusion to combine the predictions from each
modality. We thoroughly evaluate our method on the action recognition task of
the MECCANO dataset, and it significantly outperforms the prior work. Notably,
our method also secured first place at the multimodal action recognition
challenge at ICIAP 2023.
- Abstract(参考訳): エゴセントリックな視点からの行動認識はロボットにおける重要な認識課題であり、幅広い人間とロボットの相互作用を可能にする。
ほとんどのコンピュータビジョンのアプローチはRGBカメラを優先するが、エゴセントリックな視点から行動の微妙さをさらに増幅するDepthモダリティは未解明のままである。
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
そこで本研究では,近年のMECCANOデータセットについて考察する。
提案手法は,rgb と depth modality の両方を効果的にエンコードする 3d ビデオ swin transformer に基づいている。
実世界のマルチモーダル行動発生における固有歪に対処するために,焦点損失変調係数の指数的に減衰する変種を用いたトレーニング戦略を提案する。
さらに,RGBとDepthの両モダリティの情報を活用するために,各モダリティからの予測を組み合わせるために,遅延融合を選択する。
提案手法をMECCANOデータセットの動作認識タスクに対して徹底的に評価し,先行研究よりも優れていた。
また,本手法はICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて第1位を獲得した。
関連論文リスト
- Towards Global Localization using Multi-Modal Object-Instance Re-Identification [23.764646800085977]
マルチモーダルRGBと深度情報を統合した新しい再同定トランスフォーマアーキテクチャを提案する。
照明条件が異なったり散らかったりしたシーンにおけるReIDの改善を実演する。
また、正確なカメラのローカライゼーションを可能にするReIDベースのローカライゼーションフレームワークを開発し、異なる視点で識別を行う。
論文 参考訳(メタデータ) (2024-09-18T14:15:10Z) - Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。
我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T12:08:09Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Skeleton Focused Human Activity Recognition in RGB Video [11.521107108725188]
骨格とRGBの両モードを併用したマルチモーダル特徴融合モデルを提案する。
モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-29T06:40:42Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。