Fugu-MT 論文翻訳(概要): Three-Stream Fusion Network for First-Person Interaction Recognition

論文の概要: Three-Stream Fusion Network for First-Person Interaction Recognition

arxiv url: http://arxiv.org/abs/2002.08219v1
Date: Wed, 19 Feb 2020 14:47:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-30 14:11:50.558610
Title: Three-Stream Fusion Network for First-Person Interaction Recognition
Title（参考訳）: ファーストパーソンインタラクション認識のための3ストリーム融合ネットワーク
Authors: Ye-Ji Kim, Dong-Gyu Lee, Seong-Whan Lee
Abstract要約: 3ストリームアーキテクチャは、ターゲットの外観、ターゲットの動き、カメラの自走の特徴をキャプチャする。 3ストリーム相関融合は、3つのストリームのそれぞれの特徴マップを組み合わせて、ターゲットの外観、ターゲットの動き、カメラのエゴモーションの相関を考察する。
参考スコア（独自算出の注目度）: 23.494230682329306
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: First-person interaction recognition is a challenging task because of unstable video conditions resulting from the camera wearer's movement. For human interaction recognition from a first-person viewpoint, this paper proposes a three-stream fusion network with two main parts: three-stream architecture and three-stream correlation fusion. Thre three-stream architecture captures the characteristics of the target appearance, target motion, and camera ego-motion. Meanwhile the three-stream correlation fusion combines the feature map of each of the three streams to consider the correlations among the target appearance, target motion and camera ego-motion. The fused feature vector is robust to the camera movement and compensates for the noise of the camera ego-motion. Short-term intervals are modeled using the fused feature vector, and a long short-term memory(LSTM) model considers the temporal dynamics of the video. We evaluated the proposed method on two-public benchmark datasets to validate the effectiveness of our approach. The experimental results show that the proposed fusion method successfully generated a discriminative feature vector, and our network outperformed all competing activity recognition methods in first-person videos where considerable camera ego-motion occurs.
Abstract（参考訳）: 一人称インタラクション認識は,カメラ装着者の動作に起因する不安定な映像条件のため,難しい課題である。本稿では,人間同士のインタラクション認識のために,3ストリームアーキテクチャと3ストリーム相関融合という2つの主要な部分を持つ3ストリーム融合ネットワークを提案する。 3ストリームアーキテクチャは、ターゲットの外観、ターゲットの動き、カメラのエゴモーションの特徴をキャプチャする。一方、3ストリーム相関融合は、3ストリームのそれぞれの特徴マップを組み合わせて、ターゲットの外観、ターゲットの動き、カメラの自走の相関を考察する。融合特徴ベクトルは、カメラ運動に対して頑丈であり、カメラ自走のノイズを補償する。短時間の間隔は融合特徴ベクトルを用いてモデル化され、長い短期記憶(LSTM)モデルはビデオの時間的ダイナミクスを考慮する。提案手法を2つのベンチマークデータセットで評価し,提案手法の有効性を検証した。実験の結果,提案手法は識別的特徴ベクトルの生成に成功し,カメラエゴモーションが相当な場合の1対1のビデオでは,ネットワークが競合行動認識手法を上回っていた。

関連論文リスト

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文参考訳（メタデータ） (2025-06-02T17:57:06Z)
Joint-Motion Mutual Learning for Pose Estimation in Videos [21.77871402339573]
ビデオにおける人間のポーズ推定は、コンピュータビジョンの領域において、説得力がありながら挑戦的な課題だった。最近の手法では、ポーズ推定のためにバックボーンネットワークによって生成された複数フレームの視覚的特徴を統合することを目指している。ポーズ推定のための新しい共同動作相互学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-05T07:37:55Z)
Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文参考訳（メタデータ） (2024-05-02T14:43:21Z)
Collaboratively Self-supervised Video Representation Learning for Action Recognition [54.92120002380786]
我々は,行動認識に特化した協調的自己指導型ビデオ表現学習フレームワークを設計する。提案手法は,複数の人気ビデオデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2024-01-15T10:42:04Z)
Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文参考訳（メタデータ） (2023-08-07T12:26:34Z)
Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文参考訳（メタデータ） (2023-03-14T02:58:27Z)
DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文参考訳（メタデータ） (2022-12-15T14:18:47Z)
Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。 2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文参考訳（メタデータ） (2022-09-20T05:52:54Z)
Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文参考訳（メタデータ） (2020-03-09T17:05:04Z)
Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文参考訳（メタデータ） (2020-03-09T16:58:42Z)
Self-Supervised Joint Encoding of Motion and Appearance for First Person Action Recognition [19.93779132095822]
これら2つの情報チャネルを相互に介在する学習機能は有用である,と我々は主張する。本稿では,自己教師付き動作予測ブロックの追加により,単一ストリームアーキテクチャで実現可能であることを提案する。いくつかの公開データベースの実験は、我々のアプローチの力を示しています。
論文参考訳（メタデータ） (2020-02-10T17:51:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。