論文の概要: Hand-Object Interaction Reasoning
- arxiv url: http://arxiv.org/abs/2201.04906v1
- Date: Thu, 13 Jan 2022 11:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 21:09:16.473686
- Title: Hand-Object Interaction Reasoning
- Title(参考訳): ハンドオブジェクトインタラクション推論
- Authors: Jian Ma and Dima Damen
- Abstract要約: 両手インタラクションのモデル化は,エゴ符号化ビデオにおける動作認識に重要であることを示す。
ビデオ中の手と物体の時間的関係をモデル化するためのインタラクション推論ネットワークを提案する。
- 参考スコア(独自算出の注目度): 33.612083150296364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes an interaction reasoning network for modelling
spatio-temporal relationships between hands and objects in video. The proposed
interaction unit utilises a Transformer module to reason about each acting
hand, and its spatio-temporal relation to the other hand as well as objects
being interacted with. We show that modelling two-handed interactions are
critical for action recognition in egocentric video, and demonstrate that by
using positionally-encoded trajectories, the network can better recognise
observed interactions. We evaluate our proposal on EPIC-KITCHENS and
Something-Else datasets, with an ablation study.
- Abstract(参考訳): 本稿では,映像における手と物体の時空間関係をモデル化するインタラクション推論ネットワークを提案する。
提案するインタラクションユニットは、それぞれの動作について判断するためにトランスフォーマモジュールを使用し、その空間的・時間的関係と相互作用対象との相互作用を利用する。
双方向インタラクションのモデル化は,エゴセントリックビデオにおける行動認識に不可欠であることを示すとともに,位置符号化トラジェクタを用いることにより,観測されたインタラクションをよりよく認識できることを示す。
EPIC-KITCHENSとSome-Elseのデータセットをアブレーションで評価した。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - PEAR: Phrase-Based Hand-Object Interaction Anticipation [20.53329698350243]
ファースト・パーソン・ハンド・オブジェクト・インタラクション・予測は、現在のシーンとプロンプトに基づいてインタラクション・プロセスを予測することを目的としている。
既存の研究は通常、操作を無視しながら相互作用の意図だけを予測している。
インタラクションの意図と操作を共同で予測する新しいモデルPEARを提案する。
論文 参考訳(メタデータ) (2024-07-31T10:28:49Z) - ORMNet: Object-centric Relationship Modeling for Egocentric Hand-object Segmentation [14.765419467710812]
エゴセントリック・ハンドオブジェクト・セグメンテーション(EgoHOS)は、エゴセントリック・イメージにおける手とオブジェクトのセグメンテーションと相互作用を目的とした、有望な新しいタスクである。
本稿では,エンドツーエンドかつ効果的なEgoHOSを実現するために,ORMNet(Object-centric Relationship Modeling Network)を提案する。
論文 参考訳(メタデータ) (2024-07-08T03:17:10Z) - LEMON: Learning 3D Human-Object Interaction Relation from 2D Images [56.6123961391372]
人間の物体と物体の相互作用関係の学習は、AIと相互作用モデリングの具体化に不可欠である。
既存のほとんどの手法は、孤立した相互作用要素を予測することを学ぶことで目標に近づいている。
本稿では,相互の相互作用意図をマイニングし,幾何相関の抽出を導出するための曲率を用いた統一モデルLEMONを提案する。
論文 参考訳(メタデータ) (2023-12-14T14:10:57Z) - Novel-view Synthesis and Pose Estimation for Hand-Object Interaction
from Sparse Views [41.50710846018882]
スパースビューから手動物体間相互作用を推定するニューラルレンダリングとポーズ推定システムを提案する。
まず,手や物体の形状や外観を,神経表現と別々に学習する。
オンライン段階では、動的手-物体相互作用を理解するためのレンダリングベースのジョイントモデルフィッティングフレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-22T05:17:41Z) - Automatic Interaction and Activity Recognition from Videos of Human
Manual Demonstrations with Application to Anomaly Detection [0.0]
本稿では、シーングラフを利用して、動きパターンとコンテキストを同時に処理しながら、画像シーケンスから重要な相互作用特徴を抽出する。
イベントベースの自動ビデオセグメンテーションとクラスタリングを導入し、同様のイベントをグループ化して、監視されたアクティビティが正しく実行されるかどうかを検出する。
論文 参考訳(メタデータ) (2023-04-19T16:15:23Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - RR-Net: Injecting Interactive Semantics in Human-Object Interaction
Detection [40.65483058890176]
最新のエンドツーエンドHOI検出器は関係推論に欠けており、予測のためにHOI固有の対話的セマンティクスを学習できない。
まず、インタラクション推論のための新しい構造とパラメータ共有パターンをもたらす、プログレッシブな関係認識フレームを提案する。
上記のモジュールに基づいて、Relation Reasoning Network (abbr) というエンドツーエンドのトレーニング可能なフレームワークを構築します。
RR-Net)
論文 参考訳(メタデータ) (2021-04-30T14:03:10Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。