論文の概要: DEAR: Depth-Enhanced Action Recognition
- arxiv url: http://arxiv.org/abs/2408.15679v2
- Date: Thu, 12 Sep 2024 13:31:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 20:59:43.838759
- Title: DEAR: Depth-Enhanced Action Recognition
- Title(参考訳): DEAR:depth-Enhanced Action Recognition
- Authors: Sadegh Rahmaniboldaji, Filip Rybansky, Quoc Vuong, Frank Guerin, Andrew Gilbert,
- Abstract要約: 本研究では,3次元特徴と深度マップをRGB特徴と組み合わせ,行動認識の精度を高める新しいアプローチを提案する。
提案手法では,RGB機能エンコーダとは別個のブランチを通じて推定深度マップを処理し,そのシーンや動作を包括的に理解するために特徴を融合させる。
- 参考スコア(独自算出の注目度): 9.933324297265495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting actions in videos, particularly within cluttered scenes, poses significant challenges due to the limitations of 2D frame analysis from a camera perspective. Unlike human vision, which benefits from 3D understanding, recognizing actions in such environments can be difficult. This research introduces a novel approach integrating 3D features and depth maps alongside RGB features to enhance action recognition accuracy. Our method involves processing estimated depth maps through a separate branch from the RGB feature encoder and fusing the features to understand the scene and actions comprehensively. Using the Side4Video framework and VideoMamba, which employ CLIP and VisionMamba for spatial feature extraction, our approach outperformed our implementation of the Side4Video network on the Something-Something V2 dataset. Our code is available at: https://github.com/SadeghRahmaniB/DEAR
- Abstract(参考訳): ビデオ中のアクション、特に散らかったシーンにおける検出は、カメラの観点からの2Dフレーム分析の限界により、大きな課題を生んでいる。
3次元理解の恩恵を受ける人間の視覚とは異なり、そのような環境における行動を認識することは困難である。
本研究では,3次元特徴と深度マップをRGB特徴と組み合わせ,行動認識の精度を高める新しいアプローチを提案する。
提案手法では,RGB機能エンコーダとは別個のブランチを通じて推定深度マップを処理し,そのシーンや動作を包括的に理解するために特徴を融合させる。
空間特徴抽出にCLIPとVisionMambaを併用したSide4VideoフレームワークとVideoMambaを用いて,Side4VideoネットワークをSomething V2データセット上で実装した。
私たちのコードは、https://github.com/SadeghRahmaniB/DEARで利用可能です。
関連論文リスト
- Depth Awakens: A Depth-perceptual Attention Fusion Network for RGB-D Camouflaged Object Detection [1.0535324143528204]
既存のCODモデルは、視覚システムが本物の3D環境内で動作するという事実を見落としている。
本稿では,深度マップを補助入力として利用する新しい深度知覚注意融合ネットワークを提案する。
ネットワークはトリデントブランチエンコーダを使用して、色情報と深度情報とその通信を抽出する。
論文 参考訳(メタデータ) (2024-05-09T08:17:43Z) - A Survey on Backbones for Deep Video Action Recognition [7.3390139372713445]
アクション認識はインタラクティブなメタバースを構築する上で重要な技術である。
本稿では,ディープニューラルネットワークに基づく行動認識手法について概説する。
本論文では、RGBビデオフレームと光フローのモダリティを入力として使用する2ストリームネットワークと、異なる動作情報を抽出しながらRGBのモダリティを直接活用する3D畳み込みネットワークと、自然言語処理からコンピュータビジョンや映像理解へモデルを導入するトランスフォーマーベースの手法の3つの部分について紹介する。
論文 参考訳(メタデータ) (2024-05-09T07:20:36Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - ViDaS Video Depth-aware Saliency Network [40.08270905030302]
両ストリームの完全な畳み込みビデオ,Depth-Aware Saliency ネットワークである ViDaS を紹介する。
ビデオのサリエンシ予測を通じて、注目度モデリングの問題に対処する。
ネットワークは2つのビジュアルストリームで構成され、1つはRGBフレーム用、もう1つは奥行きフレーム用である。
エンドツーエンドでトレーニングされ、アイトラッキングデータを備えたさまざまなデータベースで評価される。
論文 参考訳(メタデータ) (2023-05-19T15:04:49Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Recognizing Scenes from Novel Viewpoints [99.90914180489456]
人間は、少数の2Dビューから3Dのシーンを知覚することができる。AIエージェントは、少数の画像しか持たない任意の視点からシーンを認識することで、シーンとそのオブジェクトと効率的に対話することができる。
本稿では,新しいシーンのいくつかのRGB画像を入力として取り込んで,そのシーンを意味カテゴリーに分類することで,新たな視点から認識するモデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T18:59:40Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。