論文の概要: Egocentric Prediction of Action Target in 3D
- arxiv url: http://arxiv.org/abs/2203.13116v1
- Date: Thu, 24 Mar 2022 15:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 14:30:01.424017
- Title: Egocentric Prediction of Action Target in 3D
- Title(参考訳): 3次元における行動目標のエゴセントリック予測
- Authors: Yiming Li and Ziang Cao and Andrew Liang and Benjamin Liang and Luoyao
Chen and Hang Zhao and Chen Feng
- Abstract要約: 本稿では,RGB-DとIMUストリームの100万フレームを超える大規模なマルチモーダルデータセットを提案する。
この新たな課題は、ロボット工学、ビジョン、学習コミュニティの研究者によるさらなる研究に値することを示す。
- 参考スコア(独自算出の注目度): 17.99025294221712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are interested in anticipating as early as possible the target location of
a person's object manipulation action in a 3D workspace from egocentric vision.
It is important in fields like human-robot collaboration, but has not yet
received enough attention from vision and learning communities. To stimulate
more research on this challenging egocentric vision task, we propose a large
multimodality dataset of more than 1 million frames of RGB-D and IMU streams,
and provide evaluation metrics based on our high-quality 2D and 3D labels from
semi-automatic annotation. Meanwhile, we design baseline methods using
recurrent neural networks and conduct various ablation studies to validate
their effectiveness. Our results demonstrate that this new task is worthy of
further study by researchers in robotics, vision, and learning communities.
- Abstract(参考訳): 我々は、エゴセントリックビジョンから3dワークスペースにおける物体操作動作の目標位置を、できるだけ早く予測することに興味を持っている。
人間とロボットのコラボレーションのような分野では重要であるが、まだビジョンや学習コミュニティから十分な注目を集めていない。
そこで我々は,この難易度の高い視覚課題について,RGB-DおよびIMUストリーム100万フレーム以上の大規模マルチモーダルデータセットを提案し,半自動アノテーションによる高品質な2Dおよび3Dラベルに基づく評価指標を提供する。
一方,リカレントニューラルネットワークを用いたベースライン手法の設計を行い,その有効性を検証するために様々なアブレーション研究を行う。
この新たな課題は、ロボット工学、ビジョン、学習コミュニティの研究者によるさらなる研究に値することを示す。
関連論文リスト
- Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - Pedestrian Crossing Action Recognition and Trajectory Prediction with 3D
Human Keypoints [25.550524178542833]
歩行者の横断行動認識と軌道予測のための新しいマルチタスク学習フレームワークを提案する。
生のセンサデータから抽出した3D人間のキーポイントを用いて、人間のポーズや活動に関する豊富な情報をキャプチャする。
提案手法は,幅広い評価指標を用いて最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T18:27:48Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - Surround-View Vision-based 3D Detection for Autonomous Driving: A Survey [0.6091702876917281]
本稿では,自律運転に着目した既存のビジョンベース3D検出手法に関する文献調査を行う。
文献や業界の動向が,サラウンドビューのイメージベース手法にどのように移行したかを強調し,この手法がどのような場合に対処するかについて考察した。
論文 参考訳(メタデータ) (2023-02-13T19:30:17Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - UnrealEgo: A New Dataset for Robust Egocentric 3D Human Motion Capture [70.59984501516084]
UnrealEgoは、エゴセントリックな3Dポーズ推定のための、新しい大規模博物学データセットである。
これは、2台の魚眼カメラを備えた高度な眼鏡のコンセプトに基づいており、制約のない環境で使用することができる。
本稿では,ステレオ入力のための2次元キーポイント推定モジュールを考案し,人間のポーズ推定を改善するための簡易かつ効果的なベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2022-08-02T17:59:54Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Seeing by haptic glance: reinforcement learning-based 3D object
Recognition [31.80213713136647]
対象物と指の間の触覚接触数に制限があり、対象物を見ることなく3D認識を行うことができる。
この能力は認知神経科学における「触覚的視線」と定義される。
既存の3D認識モデルのほとんどは、高密度な3Dデータに基づいて開発された。
触覚探索によって3Dデータを収集するためにロボットが使用される多くの実生活のユースケースでは、限られた数の3Dポイントしか収集できない。
アクティブに収集された3Dで客観的な3D認識と同時に触覚探査手順を最適化する新しい強化学習ベースのフレームワークが提案される。
論文 参考訳(メタデータ) (2021-02-15T15:38:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。