論文の概要: Interaction Visual Transformer for Egocentric Action Anticipation
- arxiv url: http://arxiv.org/abs/2211.14154v1
- Date: Fri, 25 Nov 2022 15:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:22:09.013214
- Title: Interaction Visual Transformer for Egocentric Action Anticipation
- Title(参考訳): エゴセントリック行動予測のためのインタラクションビジュアルトランスフォーマ
- Authors: Debaditya Roy, Ramanathan Rajendiran and Basura Fernando
- Abstract要約: 人間と物体の相互作用は、自我中心の行動予測のために探求されていない最も重要な視覚的手がかりの1つである。
本研究では,物体と人間の手の外観の変化を計算し,インタラクションをモデル化するトランスフォーマー変種を提案する。
我々のモデルであるInAViTは、大規模エゴセントリックデータセット上での最先端のアクション予測性能を実現する。
- 参考スコア(独自算出の注目度): 21.8767024220287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-object interaction is one of the most important visual cues that has
not been explored for egocentric action anticipation. We propose a novel
Transformer variant to model interactions by computing the change in the
appearance of objects and human hands due to the execution of the actions and
use those changes to refine the video representation. Specifically, we model
interactions between hands and objects using Spatial Cross-Attention (SCA) and
further infuse contextual information using Trajectory Cross-Attention to
obtain environment-refined interaction tokens. Using these tokens, we construct
an interaction-centric video representation for action anticipation. We term
our model InAViT which achieves state-of-the-art action anticipation
performance on large-scale egocentric datasets EPICKTICHENS100 (EK100) and
EGTEA Gaze+. InAViT outperforms other visual transformer-based methods
including object-centric video representation. On the EK100 evaluation server,
InAViT is the top-performing method on the public leaderboard (at the time of
submission) where it outperforms the second-best model by 3.3% on mean-top5
recall.
- Abstract(参考訳): 人間と物体の相互作用は、自我中心の行動予測のために探求されていない最も重要な視覚的手がかりの1つである。
本稿では,アクションの実行による物体と人間の手の外観の変化を計算し,その変化を利用して映像表現を洗練させることにより,インタラクションをモデル化するトランスフォーマー変種を提案する。
具体的には,空間クロスアテンション(sca)を用いて手と物体の相互作用をモデル化し,さらに軌道クロスアテンションを用いた文脈情報から環境改良されたインタラクショントークンを得る。
これらのトークンを用いて,行動予測のためのインタラクション中心のビデオ表現を構築する。
本稿では,EPICKTICHENS100(EK100)とEGTEA Gaze+を用いて,最先端のアクション予測性能を実現するモデルInAViTを述べる。
InAViTは、オブジェクト中心のビデオ表現を含む他のビジュアルトランスフォーマーベースの手法より優れている。
EK100評価サーバでは、InAViTは公開リーダーボード上で(提出時点で)最高パフォーマンスの手法であり、平均5回のリコールで2番目に良いモデルよりも3.3%上回っている。
関連論文リスト
- G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis [57.07638884476174]
G-HOPは手-対象相互作用の前駆体である。
人手は骨格距離場を介して表現し、物体の符号付き距離場と整合した表現を得る。
この手動物体は、対話クリップからの再構成や人間のつかみ合成など、他の作業を容易にするための汎用的なガイダンスとして機能することを示す。
論文 参考訳(メタデータ) (2024-04-18T17:59:28Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Human-Object Interaction Prediction in Videos through Gaze Following [9.61701724661823]
我々は、現在のHOIを検出し、将来のHOIをビデオで予測するためのフレームワークを設計する。
我々は、人間がオブジェクトと対話する前にしばしば固定するので、人間の情報を活用することを提案する。
我々のモデルは、日々の生活を捉えたビデオを含むVidHOIデータセットで訓練され、検証されている。
論文 参考訳(メタデータ) (2023-06-06T11:36:14Z) - Holistic Interaction Transformer Network for Action Detection [15.667833703317124]
HIT"ネットワークは、RGBストリームとポーズストリームからなる総合的なバイモーダルフレームワークである。
提案手法は,J-HMDB,UCF101-24,MultiSportsデータセットにおいて,従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-23T10:19:37Z) - Joint Hand Motion and Interaction Hotspots Prediction from Egocentric
Videos [13.669927361546872]
我々は、エゴセントリックなビデオから将来の手-物間相互作用を予測する。
動作ラベルや画素を予測する代わりに,次のアクティブオブジェクトの移動軌跡と将来の接触点を直接予測する。
我々のモデルはトランスフォーマーの自己認識機構を介して手動と物体の相互作用推論を行う。
論文 参考訳(メタデータ) (2022-04-04T17:59:03Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。