論文の概要: Modeling Cross-view Interaction Consistency for Paired Egocentric
Interaction Recognition
- arxiv url: http://arxiv.org/abs/2003.10663v1
- Date: Tue, 24 Mar 2020 05:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 09:19:44.150926
- Title: Modeling Cross-view Interaction Consistency for Paired Egocentric
Interaction Recognition
- Title(参考訳): Paired Egocentric Interaction Recognitionのためのクロスビューインタラクション一貫性のモデル化
- Authors: Zhongguo Li, Fan Lyu, Wei Feng, Song Wang
- Abstract要約: Paired Egocentric Interaction Recognition (PEIR) は、2人の人間とビデオの相互作用を協調的に認識するタスクである。
本稿では,2つのビュー間の関係を両耳プーリングを用いて構築し,特徴レベルの一貫性を捉えることを提案する。
データセットPEVにおける実験結果は,タスクPEIRにおける提案手法の優位性を示している。
- 参考スコア(独自算出の注目度): 16.094976277810556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of Augmented Reality (AR), egocentric action recognition
(EAR) plays important role in accurately understanding demands from the user.
However, EAR is designed to help recognize human-machine interaction in single
egocentric view, thus difficult to capture interactions between two
face-to-face AR users. Paired egocentric interaction recognition (PEIR) is the
task to collaboratively recognize the interactions between two persons with the
videos in their corresponding views. Unfortunately, existing PEIR methods
always directly use linear decision function to fuse the features extracted
from two corresponding egocentric videos, which ignore consistency of
interaction in paired egocentric videos. The consistency of interactions in
paired videos, and features extracted from them are correlated to each other.
On top of that, we propose to build the relevance between two views using
biliear pooling, which capture the consistency of two views in feature-level.
Specifically, each neuron in the feature maps from one view connects to the
neurons from another view, which guarantee the compact consistency between two
views. Then all possible paired neurons are used for PEIR for the inside
consistent information of them. To be efficient, we use compact bilinear
pooling with Count Sketch to avoid directly computing outer product in
bilinear. Experimental results on dataset PEV shows the superiority of the
proposed methods on the task PEIR.
- Abstract(参考訳): Augmented Reality(AR)の開発により、ユーザからの要求を正確に理解する上で、Egocentric Action Recognition(EAR)が重要な役割を果たす。
しかし、EARは人間と機械の相互作用を一つの自我中心の視点で認識するのに役立つように設計されており、2人の対面ARユーザー間の相互作用を捉えることは困難である。
Paired Egocentric Interaction Recognition (PEIR) は、2人の人間とビデオの相互作用を協調的に認識するタスクである。
残念ながら、既存のPEIRメソッドは常に線形決定関数を使って、2つのエゴセントリックビデオから抽出された特徴を融合させる。
ペアビデオにおける相互作用の一貫性とそれらから抽出された特徴は相互に相関する。
その上に,2つのビューの一貫性を特徴レベルで捉えるbiliear poolingを用いて,2つのビュー間の関連性を構築することを提案する。
具体的には、あるビューからのそれぞれのニューロンは、別のビューからのニューロンに接続し、2つのビュー間のコンパクトな一貫性を保証する。
そして、全ての可能なペアのニューロンは、内部の一貫性のある情報のためにPEIRに使用される。
効率を高めるために,count sketch を用いたコンパクトな双線型プーリングを用いて,外部積の直接計算を回避した。
データセットPEVの実験結果は,タスクPEIRにおける提案手法の優位性を示している。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Human-to-Human Interaction Detection [3.00604614803979]
ヒューマン・ツー・ヒューマン・インタラクション検出(HID)という新しいタスクを導入する。
HIDは、被験者の検出、個人的行動の認識、対話的な関係に応じたグループ化に、1つのモデルで取り組みます。
まず、アクション検出のために作成された人気のあるAVAデータセットに基づいて、AVA-Interaction(AVA-I)と呼ばれる新しいHIDベンチマークを確立する。
論文 参考訳(メタデータ) (2023-07-02T03:24:58Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Joint Engagement Classification using Video Augmentation Techniques for
Multi-person Human-robot Interaction [22.73774398716566]
本稿では,親子のダイアドの交際関係を同定するための新しい枠組みを提案する。
家庭の社会ロボットと一緒に物語本を読む親のダイアドのデータセットを用いて、まずRGBフレームと骨格ベースの関節エンゲージメント認識モデルを訓練する。
第2に,ロボット親子間相互作用における学習モデルの使用に関する実験結果を示す。
論文 参考訳(メタデータ) (2022-12-28T23:52:55Z) - A Hierarchical Interactive Network for Joint Span-based Aspect-Sentiment
Analysis [34.1489054082536]
本稿では,2つのタスク間の双方向相互作用を適切にモデル化する階層型対話型ネットワーク(HI-ASA)を提案する。
クロススティッチ機構を用いて、異なるタスク固有の特徴を入力として選択的に組み合わせ、適切な双方向インタラクションを保証する。
3つの実世界のデータセットの実験は、HI-ASAがベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-24T03:03:49Z) - A Co-Interactive Transformer for Joint Slot Filling and Intent Detection [61.109486326954205]
音声言語理解システム(SLU)を構築する上では,インテント検出とスロットフィリングが主要な2つのタスクである。
以前の研究では、2つのタスクを個別にモデル化するか、インテントからスロットへの単一の情報フローのみを考慮していた。
本稿では,2つのタスク間の相互影響を同時に検討するコ・インターアクティブ・トランスフォーマーを提案する。
論文 参考訳(メタデータ) (2020-10-08T10:16:52Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。