論文の概要: Three-Stream Fusion Network for First-Person Interaction Recognition
- arxiv url: http://arxiv.org/abs/2002.08219v1
- Date: Wed, 19 Feb 2020 14:47:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 14:11:50.558610
- Title: Three-Stream Fusion Network for First-Person Interaction Recognition
- Title(参考訳): ファーストパーソンインタラクション認識のための3ストリーム融合ネットワーク
- Authors: Ye-Ji Kim, Dong-Gyu Lee, Seong-Whan Lee
- Abstract要約: 3ストリームアーキテクチャは、ターゲットの外観、ターゲットの動き、カメラの自走の特徴をキャプチャする。
3ストリーム相関融合は、3つのストリームのそれぞれの特徴マップを組み合わせて、ターゲットの外観、ターゲットの動き、カメラのエゴモーションの相関を考察する。
- 参考スコア(独自算出の注目度): 23.494230682329306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: First-person interaction recognition is a challenging task because of
unstable video conditions resulting from the camera wearer's movement. For
human interaction recognition from a first-person viewpoint, this paper
proposes a three-stream fusion network with two main parts: three-stream
architecture and three-stream correlation fusion. Thre three-stream
architecture captures the characteristics of the target appearance, target
motion, and camera ego-motion. Meanwhile the three-stream correlation fusion
combines the feature map of each of the three streams to consider the
correlations among the target appearance, target motion and camera ego-motion.
The fused feature vector is robust to the camera movement and compensates for
the noise of the camera ego-motion. Short-term intervals are modeled using the
fused feature vector, and a long short-term memory(LSTM) model considers the
temporal dynamics of the video. We evaluated the proposed method on two-public
benchmark datasets to validate the effectiveness of our approach. The
experimental results show that the proposed fusion method successfully
generated a discriminative feature vector, and our network outperformed all
competing activity recognition methods in first-person videos where
considerable camera ego-motion occurs.
- Abstract(参考訳): 一人称インタラクション認識は,カメラ装着者の動作に起因する不安定な映像条件のため,難しい課題である。
本稿では,人間同士のインタラクション認識のために,3ストリームアーキテクチャと3ストリーム相関融合という2つの主要な部分を持つ3ストリーム融合ネットワークを提案する。
3ストリームアーキテクチャは、ターゲットの外観、ターゲットの動き、カメラのエゴモーションの特徴をキャプチャする。
一方、3ストリーム相関融合は、3ストリームのそれぞれの特徴マップを組み合わせて、ターゲットの外観、ターゲットの動き、カメラの自走の相関を考察する。
融合特徴ベクトルは、カメラ運動に対して頑丈であり、カメラ自走のノイズを補償する。
短時間の間隔は融合特徴ベクトルを用いてモデル化され、長い短期記憶(LSTM)モデルはビデオの時間的ダイナミクスを考慮する。
提案手法を2つのベンチマークデータセットで評価し,提案手法の有効性を検証した。
実験の結果,提案手法は識別的特徴ベクトルの生成に成功し,カメラエゴモーションが相当な場合の1対1のビデオでは,ネットワークが競合行動認識手法を上回っていた。
関連論文リスト
- Collaboratively Self-supervised Video Representation Learning for Action
Recognition [58.195372471117615]
我々は,行動認識に特化した協調的自己指導型ビデオ表現学習フレームワークを設計する。
提案手法は,UCF101およびHMDB51データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-15T10:42:04Z) - SimulFlow: Simultaneously Extracting Feature and Identifying Target for
Unsupervised Video Object Segmentation [28.19471998380114]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、人間が介在することなく、所定のビデオシーケンス内の一次オブジェクトを検出することを目的としている。
既存のほとんどの手法は、ターゲットを識別してオブジェクトマスクを生成する前に、外観と動き情報を別々に符号化する2ストリームアーキテクチャに依存している。
特徴抽出とターゲット識別を同時に行うSimulFlowと呼ばれる新しいUVOSモデルを提案する。
論文 参考訳(メタデータ) (2023-11-30T06:44:44Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action
Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。
2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。
提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-20T05:52:54Z) - 3D Pose Estimation and Future Motion Prediction from 2D Images [26.28886209268217]
本稿では,3次元人物のポーズを推定し,RGB画像列から将来の3次元動作を予測するという,高相関な課題に共同で取り組むことを検討する。
リー代数のポーズ表現に基づいて、人間の運動キネマティクスを自然に保存する新しい自己投射機構が提案されている。
論文 参考訳(メタデータ) (2021-11-26T01:02:00Z) - Efficient Spatialtemporal Context Modeling for Action Recognition [42.30158166919919]
本稿では,アクション認識のための高密度長範囲コンテキスト情報映像をモデル化するためのRCCA-3Dモジュールを提案する。
我々は, 水平方向, 垂直方向, 深さの各時間における同一線上の点間の関係をモデル化し, 3次元クリスクロス構造を形成する。
非局所的な手法と比較して、RCCA-3DモジュールはビデオコンテキストモデリングにおいてパラメータとFLOPの数を25%と11%削減する。
論文 参考訳(メタデータ) (2021-03-20T14:48:12Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z) - Self-Supervised Joint Encoding of Motion and Appearance for First Person
Action Recognition [19.93779132095822]
これら2つの情報チャネルを相互に介在する学習機能は有用である,と我々は主張する。
本稿では,自己教師付き動作予測ブロックの追加により,単一ストリームアーキテクチャで実現可能であることを提案する。
いくつかの公開データベースの実験は、我々のアプローチの力を示しています。
論文 参考訳(メタデータ) (2020-02-10T17:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。