Fugu-MT 論文翻訳(概要): Interaction Region Visual Transformer for Egocentric Action Anticipation

論文の概要: Interaction Region Visual Transformer for Egocentric Action Anticipation

arxiv url: http://arxiv.org/abs/2211.14154v7
Date: Thu, 11 Jan 2024 15:11:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-13 04:30:58.155708
Title: Interaction Region Visual Transformer for Egocentric Action Anticipation
Title（参考訳）: エゴセントリックアクション予測のための相互作用領域視覚変換器
Authors: Debaditya Roy, Ramanathan Rajendiran and Basura Fernando
Abstract要約: 本研究では,エゴセントリックな行動予測のための人間と物体の相互作用を表現する新しい手法を提案する。空間的クロスアテンションを用いた手と物体の相互作用をモデル化する。次に,トラジェクトリ・クロス・アテンションを用いてコンテキスト情報を注入し,環境に合った対話トークンを得る。これらのトークンを用いて,アクション予測のためのインタラクション中心のビデオ表現を構築する。
参考スコア（独自算出の注目度）: 18.873728614415946
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Human-object interaction is one of the most important visual cues and we propose a novel way to represent human-object interactions for egocentric action anticipation. We propose a novel transformer variant to model interactions by computing the change in the appearance of objects and human hands due to the execution of the actions and use those changes to refine the video representation. Specifically, we model interactions between hands and objects using Spatial Cross-Attention (SCA) and further infuse contextual information using Trajectory Cross-Attention to obtain environment-refined interaction tokens. Using these tokens, we construct an interaction-centric video representation for action anticipation. We term our model InAViT which achieves state-of-the-art action anticipation performance on large-scale egocentric datasets EPICKTICHENS100 (EK100) and EGTEA Gaze+. InAViT outperforms other visual transformer-based methods including object-centric video representation. On the EK100 evaluation server, InAViT is the top-performing method on the public leaderboard (at the time of submission) where it outperforms the second-best model by 3.3% on mean-top5 recall.
Abstract（参考訳）: ヒトと物体の相互作用は最も重要な視覚的手がかりの1つであり、人間と物体の相互作用をエゴセントリックな行動予測のために表現する方法を提案する。本稿では,アクションの実行による物体と人間の手の外観の変化を計算し,その変化を利用して映像表現を洗練することにより,インタラクションをモデル化するトランスフォーマーを提案する。具体的には,空間クロスアテンション(sca)を用いて手と物体の相互作用をモデル化し,さらに軌道クロスアテンションを用いた文脈情報から環境改良されたインタラクショントークンを得る。これらのトークンを用いて,行動予測のためのインタラクション中心のビデオ表現を構築する。本稿では,EPICKTICHENS100(EK100)とEGTEA Gaze+を用いて,最先端のアクション予測性能を実現するモデルInAViTを述べる。 InAViTは、オブジェクト中心のビデオ表現を含む他のビジュアルトランスフォーマーベースの手法より優れている。 EK100評価サーバでは、InAViTは公開リーダーボード上で(提出時点で)最高パフォーマンスの手法であり、平均5回のリコールで2番目に良いモデルよりも3.3%上回っている。

関連論文リスト

How Do I Do That? Synthesizing 3D Hand Motion and Contacts for Everyday Interactions [13.854929222017121]
我々は,RGBビュー,アクションテキスト,オブジェクト上の3次元接触点を入力として,3次元手の動きと接触地図(または対話軌跡)を予測するという新たな課題に取り組む。本手法は,(1)手ポーズと接触点の潜在コードブックを学習するVQVAEモデル,(2)対話軌跡を効果的にトークン化するInteraction Predictor: テスト時間入力から対話軌跡を予測するTransformer-Decoderモジュールから構成される。
論文参考訳（メタデータ） (2025-04-16T17:48:12Z)
Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。 EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文参考訳（メタデータ） (2025-03-02T18:49:48Z)
G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis [57.07638884476174]
G-HOPは手-対象相互作用の前駆体である。人手は骨格距離場を介して表現し、物体の符号付き距離場と整合した表現を得る。この手動物体は、対話クリップからの再構成や人間のつかみ合成など、他の作業を容易にするための汎用的なガイダンスとして機能することを示す。
論文参考訳（メタデータ） (2024-04-18T17:59:28Z)
Disentangled Interaction Representation for One-Stage Human-Object Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文参考訳（メタデータ） (2023-12-04T08:02:59Z)
Towards a Unified Transformer-based Framework for Scene Graph Generation and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。提案手法は最先端のHOI法と比較して競争性能が向上する。
論文参考訳（メタデータ） (2023-11-03T07:25:57Z)
ROAM: Robust and Object-Aware Motion Generation Using Neural Pose Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-24T17:59:51Z)
Human-Object Interaction Prediction in Videos through Gaze Following [9.61701724661823]
我々は、現在のHOIを検出し、将来のHOIをビデオで予測するためのフレームワークを設計する。我々は、人間がオブジェクトと対話する前にしばしば固定するので、人間の情報を活用することを提案する。我々のモデルは、日々の生活を捉えたビデオを含むVidHOIデータセットで訓練され、検証されている。
論文参考訳（メタデータ） (2023-06-06T11:36:14Z)
Holistic Interaction Transformer Network for Action Detection [15.667833703317124]
HIT"ネットワークは、RGBストリームとポーズストリームからなる総合的なバイモーダルフレームワークである。提案手法は,J-HMDB,UCF101-24,MultiSportsデータセットにおいて,従来の手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-23T10:19:37Z)
Joint Hand Motion and Interaction Hotspots Prediction from Egocentric Videos [13.669927361546872]
我々は、エゴセントリックなビデオから将来の手-物間相互作用を予測する。動作ラベルや画素を予測する代わりに,次のアクティブオブジェクトの移動軌跡と将来の接触点を直接予測する。我々のモデルはトランスフォーマーの自己認識機構を介して手動と物体の相互作用推論を行う。
論文参考訳（メタデータ） (2022-04-04T17:59:03Z)
Estimating 3D Motion and Forces of Human-Object Interactions from Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文参考訳（メタデータ） (2021-11-02T13:40:18Z)
Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。 ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文参考訳（メタデータ） (2021-10-13T17:51:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。