Fugu-MT 論文翻訳(概要): VideoPose: Estimating 6D object pose from videos

論文の概要: VideoPose: Estimating 6D object pose from videos

arxiv url: http://arxiv.org/abs/2111.10677v1
Date: Sat, 20 Nov 2021 20:57:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-24 11:12:21.236555
Title: VideoPose: Estimating 6D object pose from videos
Title（参考訳）: VideoPose:ビデオから6Dオブジェクトのポーズを推定する
Authors: Apoorva Beedu, Zhile Ren, Varun Agrawal, Irfan Essa
Abstract要約: 我々は、畳み込みニューラルネットワークを用いて、ビデオから直接オブジェクトのポーズを推定する、単純だが効果的なアルゴリズムを導入する。提案するネットワークは、トレーニング済みの2Dオブジェクト検出器を入力として、リカレントニューラルネットワークを介して視覚的特徴を集約し、各フレームで予測を行う。 YCB-Videoデータセットの実験的評価から,本手法は最先端のアルゴリズムと同等であることがわかった。
参考スコア（独自算出の注目度）: 14.210010379733017
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a simple yet effective algorithm that uses convolutional neural networks to directly estimate object poses from videos. Our approach leverages the temporal information from a video sequence, and is computationally efficient and robust to support robotic and AR domains. Our proposed network takes a pre-trained 2D object detector as input, and aggregates visual features through a recurrent neural network to make predictions at each frame. Experimental evaluation on the YCB-Video dataset show that our approach is on par with the state-of-the-art algorithms. Further, with a speed of 30 fps, it is also more efficient than the state-of-the-art, and therefore applicable to a variety of applications that require real-time object pose estimation.
Abstract（参考訳）: 本稿では,畳み込みニューラルネットワークを用いて映像から物体のポーズを直接推定する,単純かつ効果的なアルゴリズムを提案する。提案手法はビデオシーケンスからの時間情報を活用し,ロボットとARドメインをサポートするために計算効率が高く,堅牢である。提案するネットワークは、トレーニング済みの2Dオブジェクト検出器を入力として、繰り返しニューラルネットワークを介して視覚的特徴を集約し、各フレームで予測を行う。 YCB-Videoデータセットの実験的評価から,本手法は最先端のアルゴリズムと同等であることがわかった。さらに、30fpsの速度では最先端技術よりも効率が高く、したがってリアルタイムオブジェクトのポーズ推定を必要とする様々なアプリケーションに適用できる。

関連論文リスト

An Efficient 3D Convolutional Neural Network with Channel-wise, Spatial-grouped, and Temporal Convolutions [3.798710743290466]
本稿では,ビデオ行動認識のためのシンプルで効率的な3次元畳み込みニューラルネットワークを提案する。提案するネットワークの性能と効率を,複数のビデオ行動認識データセット上で評価する。
論文参考訳（メタデータ） (2025-03-02T08:47:06Z)
Semi-supervised 3D Video Information Retrieval with Deep Neural Network and Bi-directional Dynamic-time Warping Algorithm [14.39527406033429]
提案アルゴリズムは,大規模なビデオデータセットを処理し,最も関連性の高い映像を検索ビデオクリップに検索するように設計されている。候補と調査ビデオの両方を一連のクリップに分割し、各クリップをオートエンコーダ支援のディープニューラルネットワークを用いて表現ベクトルに変換する。次に, 双方向動的時間ワープ法を用いて, 埋め込みベクトル列間の類似度を計算した。
論文参考訳（メタデータ） (2023-09-03T03:10:18Z)
Uncertainty Aware Active Learning for Reconfiguration of Pre-trained Deep Object-Detection Networks for New Target Domains [0.0]
物体検出はコンピュータビジョンタスクの最も重要かつ基本的な側面の1つである。オブジェクト検出モデルのトレーニングデータを効率的に取得するために、多くのデータセットは、ビデオフォーマットでアノテーションのないデータを取得することを選択します。ビデオからすべてのフレームに注釈を付けるのは、多くのフレームがモデルが学ぶのに非常によく似た情報を含んでいるため、費用がかかり非効率である。本稿では,この問題に対処するためのオブジェクト検出モデルのための新しい能動学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-22T17:14:10Z)
Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文参考訳（メタデータ） (2023-01-14T09:43:23Z)
Deep Learning Computer Vision Algorithms for Real-time UAVs On-board Camera Image Processing [77.34726150561087]
本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。
論文参考訳（メタデータ） (2022-11-02T11:10:42Z)
Video based Object 6D Pose Estimation using Transformers [6.951360830202521]
VideoPoseは、ビデオ内の6Dオブジェクトポスを推定するために、以前のフレームに付随するエンドツーエンドのアテンションベースのモデリングアーキテクチャである。我々のアーキテクチャは、長距離依存関係を効率的にキャプチャし、推論することができ、ビデオシーケンスを反復的に精錬することができる。提案手法は最先端の Transformer 手法と同等であり,CNN ベースの手法と比較して大幅に性能が向上する。
論文参考訳（メタデータ） (2022-10-24T18:45:53Z)
Differentiable Frequency-based Disentanglement for Aerial Video Action Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2022-09-15T22:16:52Z)
FvOR: Robust Joint Shape and Pose Optimization for Few-view Object Reconstruction [37.81077373162092]
数枚の画像から正確な3Dオブジェクトモデルを再構築することは、コンピュータビジョンにおいて難しい問題である。 FvORは、ノイズの多い入力ポーズを持つ数枚の画像から正確な3Dモデルを予測する学習ベースのオブジェクト再構成手法である。
論文参考訳（メタデータ） (2022-05-16T15:39:27Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。ビデオの時間情報を利用して自己着脱モジュールを提案する。本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文参考訳（メタデータ） (2021-03-26T00:02:19Z)
Fast Motion Understanding with Spatiotemporal Neural Networks and Dynamic Vision Sensors [99.94079901071163]
本稿では,高速な動きを推論するための動的視覚センサ(DVS)システムを提案する。ロボットが15m/s以上の速度で接近する小さな物体に反応するケースを考察する。我々は,23.4m/sで24.73degの誤差を$theta$,18.4mmの平均離散半径予測誤差,衝突予測誤差に対する25.03%の中央値で移動した玩具ダートについて,本システムの結果を強調した。
論文参考訳（メタデータ） (2020-11-18T17:55:07Z)
A Real-time Action Representation with Temporal Encoding and Deep Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。 T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文参考訳（メタデータ） (2020-06-17T06:30:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。