論文の概要: DeePoint: Pointing Recognition and Direction Estimation From A Fixed
View
- arxiv url: http://arxiv.org/abs/2304.06977v1
- Date: Fri, 14 Apr 2023 07:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 14:13:07.149708
- Title: DeePoint: Pointing Recognition and Direction Estimation From A Fixed
View
- Title(参考訳): DeePoint: 固定ビューからのポイント認識と方向推定
- Authors: Shu Nakamura, Yasutomo Kawanishi, Shohei Nobuhara, Ko Nishino
- Abstract要約: 本稿では,2つの重要な貢献に基づく最初の神経理解手法を提案する。
1つ目は、認識と方向推定のための、第一級の大規模データセットの導入である。
2つ目はディーポイント(DeePoint)で、これは関節認識とポインティングの3次元方向推定のための新しいディープネットワークモデルである。
- 参考スコア(独自算出の注目度): 25.62502076537544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we realize automatic visual recognition and direction
estimation of pointing. We introduce the first neural pointing understanding
method based on two key contributions. The first is the introduction of a
first-of-its-kind large-scale dataset for pointing recognition and direction
estimation, which we refer to as the DP Dataset. DP Dataset consists of more
than 2 million frames of over 33 people pointing in various styles annotated
for each frame with pointing timings and 3D directions. The second is DeePoint,
a novel deep network model for joint recognition and 3D direction estimation of
pointing. DeePoint is a Transformer-based network which fully leverages the
spatio-temporal coordination of the body parts, not just the hands. Through
extensive experiments, we demonstrate the accuracy and efficiency of DeePoint.
We believe DP Dataset and DeePoint will serve as a sound foundation for visual
human intention understanding.
- Abstract(参考訳): 本稿では,ポインティングの自動視覚認識と方向推定を実現する。
2つの重要な貢献に基づく最初のニューラルポインティング理解手法を提案する。
ひとつは,私たちがdpデータセットと呼ぶ,認識と方向推定を指さすための,初歩的な大規模データセットの導入です。
DP Datasetは、33人以上からなる200万フレーム以上で構成され、各フレームにアノテートされた様々なスタイルを指し、タイミングと3D方向を指示する。
第二のdeepointは、関節認識のための新しいディープネットワークモデルであり、ポインティングの3次元方向推定である。
DeePointはトランスフォーマーベースのネットワークで、手だけでなく身体部分の時空間的調整を完全に活用している。
広範な実験を通じて,deepointの精度と効率を実証する。
DP DatasetとDeePointは、視覚的人間の意図を理解するための健全な基盤になると思います。
関連論文リスト
- PointCG: Self-supervised Point Cloud Learning via Joint Completion and Generation [32.04698431036215]
本稿では,マスク付きポイントモデリング(MPM)と3D-to-2D生成という2つの一般的な手法を,事前学習フレームワーク内にプリテキストタスクとして統合する。
我々はこれらの2つの手法によって提供される空間的認識と精密な監督を活用して、それぞれの限界に対処する。
論文 参考訳(メタデータ) (2024-11-09T02:38:29Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - Objects as Spatio-Temporal 2.5D points [5.588892124219713]
本研究では,ネットワークの単一フィードフォワードパスにおける2次元物体検出シーンの深度予測を協調学習することにより,物体の3次元位置を推定する弱い教師付き手法を提案する。
提案手法は,単点型オブジェクト検出装置を拡張し,各オブジェクトを時間的にBEVとしてモデル化し,クエリ時に3DやBEVアノテーションやLiDARデータを必要としない新しいオブジェクト表現を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:14:30Z) - 360 Depth Estimation in the Wild -- The Depth360 Dataset and the SegFuse
Network [35.03201732370496]
全方位画像からの一視点深度推定は、自律運転やシーン再構築といった幅広い応用で人気を博している。
本研究ではまず,トレーニングデータ問題に対処するため,Depth360と呼ばれるさまざまな設定の大規模データセットを構築した。
次に、人間の眼を模倣してデータセットから効果的に学習する、エンドツーエンドのマルチタスク学習ネットワークであるSegFuseを提案する。
論文 参考訳(メタデータ) (2022-02-16T11:56:31Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - A Self-Training Approach for Point-Supervised Object Detection and
Counting in Crowds [54.73161039445703]
本稿では,ポイントレベルのアノテーションのみを用いて訓練された典型的なオブジェクト検出を可能にする,新たな自己学習手法を提案する。
トレーニング中、利用可能なポイントアノテーションを使用して、オブジェクトの中心点の推定を監督する。
実験の結果,本手法は検出タスクとカウントタスクの両方において,最先端のポイント管理手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-25T02:14:42Z) - Point-Set Anchors for Object Detection, Instance Segmentation and Pose
Estimation [85.96410825961966]
中心点から抽出された画像の特徴は、離れたキーポイントや境界ボックスの境界を予測するための限られた情報を含んでいると論じる。
推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。
我々は、オブジェクト検出、インスタンス分割、人間のポーズ推定にPoint-Set Anchorsと呼ばれるこのフレームワークを適用した。
論文 参考訳(メタデータ) (2020-07-06T15:59:56Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z) - DELTAS: Depth Estimation by Learning Triangulation And densification of
Sparse points [14.254472131009653]
多視点ステレオ (MVS) は, 能動深度センシングの精度と単眼深度推定の実用性の間の黄金平均値である。
3次元畳み込みニューラルネットワーク(CNN)を用いたコストボリュームベースのアプローチにより、MVSシステムの精度が大幅に向上した。
まず、(a)興味点の記述子を検出して評価し、次に(b)興味点の小さな集合をマッチングして三角測量し、最後に(c)CNNを用いてこのスパースな3D点の集合を密度化することで、効率的な深さ推定手法を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:41Z) - PPDM: Parallel Point Detection and Matching for Real-time Human-Object
Interaction Detection [85.75935399090379]
本稿では,Human-Object Interaction (HOI) の単一段階検出手法を提案する。
これは、初めてのリアルタイムHOI検出方法である。
論文 参考訳(メタデータ) (2019-12-30T12:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。