論文の概要: Trear: Transformer-based RGB-D Egocentric Action Recognition
- arxiv url: http://arxiv.org/abs/2101.03904v1
- Date: Tue, 5 Jan 2021 19:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 11:32:42.529498
- Title: Trear: Transformer-based RGB-D Egocentric Action Recognition
- Title(参考訳): Trear: Transformer-based RGB-D Egocentric Action Recognition
- Authors: Xiangyu Li and Yonghong Hou and Pichao Wang and Zhimin Gao and
Mingliang Xu and Wanqing Li
- Abstract要約: 本稿では,textbfTransformer-based RGB-D textbgocentric textbfaction textbfrecognition framework, Trearを提案する。
フレーム間アテンションエンコーダと相互アテンショナルフュージョンブロックの2つのモジュールで構成されている。
- 参考スコア(独自算出の注目度): 38.20137500372927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a \textbf{Tr}ansformer-based RGB-D
\textbf{e}gocentric \textbf{a}ction \textbf{r}ecognition framework, called
Trear. It consists of two modules, inter-frame attention encoder and
mutual-attentional fusion block. Instead of using optical flow or recurrent
units, we adopt self-attention mechanism to model the temporal structure of the
data from different modalities. Input frames are cropped randomly to mitigate
the effect of the data redundancy. Features from each modality are interacted
through the proposed fusion block and combined through a simple yet effective
fusion operation to produce a joint RGB-D representation. Empirical experiments
on two large egocentric RGB-D datasets, THU-READ and FPHA, and one small
dataset, WCVS, have shown that the proposed method outperforms the
state-of-the-art results by a large margin.
- Abstract(参考訳): 本稿では,RGB-D \textbf{e}gocentric \textbf{a}ction \textbf{r}ecognition frameworkであるTrearを提案する。
フレーム間アテンションエンコーダと相互アテンショナルフュージョンブロックの2つのモジュールで構成されている。
光フローやリカレントユニットの代わりに、異なるモードからのデータの時間構造をモデル化するための自己注意機構を採用する。
入力フレームはランダムにトリミングされ、データ冗長性の影響を軽減する。
各モードの特徴は、提案した融合ブロックを介して相互作用し、単純だが効果的な融合操作により結合されたRGB-D表現を生成する。
THU-READとFPHAという2つの大きなエゴセントリックなRGB-Dデータセットと、WCVSという小さなデータセットに関する実証実験により、提案手法は最先端の結果よりも大きなマージンで優れていることが示された。
関連論文リスト
- HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Middle-level Fusion for Lightweight RGB-D Salient Object Detection [81.43951906434175]
本稿では,新しい軽量RGB-D SODモデルについて述べる。
中層核融合構造に IMFF および L モジュールが組み込まれているため,提案モデルは3.9M のパラメータしか持たず,33 FPS で動作する。
いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-04-23T11:37:15Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。