論文の概要: Transformer-based Action recognition in hand-object interacting
scenarios
- arxiv url: http://arxiv.org/abs/2210.11387v1
- Date: Thu, 20 Oct 2022 16:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:18:29.265348
- Title: Transformer-based Action recognition in hand-object interacting
scenarios
- Title(参考訳): ハンドオブジェクトインタラクションシナリオにおけるトランスフォーマティブ動作認識
- Authors: Hoseong Cho and Seungryul Baek
- Abstract要約: 本報告では,Egocentric and Multi-view Cameras Challenge: Action RecognitionによるECCV 2022 Human Body, Hands, and Activity (HBHA)の2番目のソリューションについて述べる。
本稿では,両手とトランスフォーマーを用いたキーポイント推定器を用いたオブジェクトのキーポイントを推定し,推定したキーポイントに基づいて動作を認識するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.679721418508601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report describes the 2nd place solution to the ECCV 2022 Human Body,
Hands, and Activities (HBHA) from Egocentric and Multi-view Cameras Challenge:
Action Recognition. This challenge aims to recognize hand-object interaction in
an egocentric view. We propose a framework that estimates keypoints of two
hands and an object with a Transformer-based keypoint estimator and recognizes
actions based on the estimated keypoints. We achieved a top-1 accuracy of
87.19% on the testset.
- Abstract(参考訳): 本報告では,Egocentric and Multi-view Cameras Challenge: Action RecognitionによるECCV 2022 Human Body, Hands, and Activity (HBHA)の2番目のソリューションについて述べる。
この課題は、自我中心の視点で手動の相互作用を認識することである。
本稿では,2つの手と物体のキーポイントを推定し,推定したキーポイントに基づいて動作を認識するフレームワークを提案する。
テストセットでトップ1の精度87.19%を達成した。
関連論文リスト
- Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Team I2R-VI-FF Technical Report on EPIC-KITCHENS VISOR Hand Object
Segmentation Challenge 2023 [12.266684016563733]
本稿では,EPIC-KITCHENS VISOR Hand Object Challengeへのアプローチを提案する。
提案手法は,PointRend(Point-based Rendering)法とSAM(Seegment Anything Model)法を組み合わせたものである。
既存の手法の強みを効果的に組み合わせ,改良を施すことで,VISOR HOSチャレンジで第1位を獲得しました。
論文 参考訳(メタデータ) (2023-10-31T01:43:14Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Team VI-I2R Technical Report on EPIC-KITCHENS-100 Unsupervised Domain
Adaptation Challenge for Action Recognition 2022 [6.561596502471905]
本稿では,EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2022について述べる。
このタスクは、ラベル付きソースドメインでトレーニングされたアクション認識モデルをラベルなしターゲットドメインに適応することを目的としている。
最終提出はトップ1の行動認識精度で第1位を獲得しました。
論文 参考訳(メタデータ) (2023-01-29T12:29:24Z) - Transformer-based Global 3D Hand Pose Estimation in Two Hands
Manipulating Objects Scenarios [13.59950629234404]
本報告では,エゴセントリックカメラとマルチビューカメラによるECCV 2022による人体・手・活動(HBHA)問題に対する第1位ソリューションについて述べる(手ポーズ推定)。
本研究では,2つの手と物体が自我中心の視点で相互作用している入力画像から,グローバルな3次元手ポーズを推定することを目的とする。
提案手法は,トランスアーキテクチャを用いたエンドツーエンドのマルチハンドポーズ推定を行う。
論文 参考訳(メタデータ) (2022-10-20T16:24:47Z) - Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action
Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。
2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。
提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-20T05:52:54Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - Sequential Decision-Making for Active Object Detection from Hand [43.839322860501596]
手動オブジェクトの相互作用を理解する重要な要素は、アクティブオブジェクトを識別する能力である。
我々は,手の位置と外観を条件とした逐次的意思決定プロセスとして,能動物体検出手法を構築した。
このアプローチの主な革新は、Box Fieldと呼ばれる内部表現を使用するアクティブオブジェクト検出ポリシーの設計です。
論文 参考訳(メタデータ) (2021-10-21T23:40:45Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - One-Shot Affordance Detection [0.0]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
ロボットにこの能力を持たせるために,一発一発検出の問題を考える。
我々は,まずその目的を推定し,その共通価格を検出するために転送するワンショットアフォーダンス検出(OS-AD)ネットワークを考案した。
論文 参考訳(メタデータ) (2021-06-28T14:22:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。