論文の概要: From 2D to 3D: AISG-SLA Visual Localization Challenge
- arxiv url: http://arxiv.org/abs/2407.18590v1
- Date: Fri, 26 Jul 2024 08:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:00:25.392680
- Title: From 2D to 3D: AISG-SLA Visual Localization Challenge
- Title(参考訳): 2Dから3Dへ:AISG-SLAビジュアルローカライゼーションチャレンジ
- Authors: Jialin Gao, Bill Ong, Darld Lwi, Zhen Hao Ng, Xun Wei Yee, Mun-Thye Mak, Wee Siong Ng, See-Kiong Ng, Hui Ying Teo, Victor Khoo, Georg Bökman, Johan Edstedt, Kirill Brodt, Clémentin Boittiaux, Maxime Ferrera, Stepan Konev,
- Abstract要約: IJCAI 2023でAISG-SLAビジュアルローカライゼーションチャレンジ(VLC)を開催した。
この挑戦は世界中に300人以上の参加者を集め、50以上のチームを形成した。
勝利チームは、フレームレートの低い車載カメラの画像を用いて、ポーズ推定において高い精度を達成した。
- 参考スコア(独自算出の注目度): 16.39998393991086
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Research in 3D mapping is crucial for smart city applications, yet the cost of acquiring 3D data often hinders progress. Visual localization, particularly monocular camera position estimation, offers a solution by determining the camera's pose solely through visual cues. However, this task is challenging due to limited data from a single camera. To tackle these challenges, we organized the AISG-SLA Visual Localization Challenge (VLC) at IJCAI 2023 to explore how AI can accurately extract camera pose data from 2D images in 3D space. The challenge attracted over 300 participants worldwide, forming 50+ teams. Winning teams achieved high accuracy in pose estimation using images from a car-mounted camera with low frame rates. The VLC dataset is available for research purposes upon request via vlc-dataset@aisingapore.org.
- Abstract(参考訳): 3Dマッピングの研究はスマートシティのアプリケーションにとって不可欠だが、3Dデータを取得するコストは進歩を妨げることが多い。
視覚的ローカライゼーション、特に単眼カメラの位置推定は、視覚的手がかりによってのみカメラのポーズを決定することで解決する。
しかし、単一のカメラからのデータが少ないため、このタスクは難しい。
これらの課題に対処するために、AIが3D空間で2D画像からカメラのポーズデータを正確に抽出する方法を探るため、IJCAI 2023でAISG-SLAビジュアルローカライゼーションチャレンジ(VLC)を開催した。
この挑戦は世界中に300人以上の参加者を集め、50以上のチームを形成した。
勝利チームは、フレームレートの低い車載カメラの画像を用いて、ポーズ推定において高い精度を達成した。
VLCデータセットは、vlc-dataset@aisingapore.orgを通じて、要求に応じて研究目的で利用できる。
関連論文リスト
- WorldPose: A World Cup Dataset for Global 3D Human Pose Estimation [67.28831601491447]
WorldPoseは、野生における多人数のグローバルポーズ推定の研究を進めるための、新しいデータセットである。
我々はHDカメラの静的多視点設定を利用して、前例のない精度で3Dプレーヤーのポーズと動きを復元する。
得られたデータセットは80以上のシークエンスで構成され、約2.5万の3Dポーズと総走行距離は120km以上である。
論文 参考訳(メタデータ) (2025-01-06T05:24:38Z) - Improving Distant 3D Object Detection Using 2D Box Supervision [97.80225758259147]
遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。
我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。
論文 参考訳(メタデータ) (2024-03-14T09:54:31Z) - Overview of the L3DAS23 Challenge on Audio-Visual Extended Reality [15.034352805342937]
L3DAS23 Signal Processing Grand Challenge at ICASSP 2023の主な目標は、3Dオーディオ信号処理のための機械学習に関する共同研究の促進と支援である。
我々は、L3DAS21とL3DAS22のデータセットと同じ一般的な特性を維持する新しいデータセットを提供する。
両タスクのベースラインモデルを更新し,音声画像のカップルを入力としてサポートし,その結果を再現するサポートAPIを提案する。
論文 参考訳(メタデータ) (2024-02-14T15:34:28Z) - SLOPER4D: A Scene-Aware Dataset for Global 4D Human Pose Estimation in
Urban Environments [0.0]
SLOPER4Dは,大都市環境下で収集された新たなシーン認識データセットである。
我々は,エゴセントリックな視点から,10の多様な都市シーンにおける12人の被験者の活動を記録している。
SLOPER4Dは15個の人間の動きで構成され、それぞれが200メートル以上の軌道長を持つ。
論文 参考訳(メタデータ) (2023-03-16T05:54:15Z) - EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with
Visual Queries [68.75400888770793]
我々は、エゴセントリックなビデオから2次元オブジェクトを検索することで、3次元のマルチビュー幾何をよりうまく絡み合わせるパイプラインを定式化する。
具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
論文 参考訳(メタデータ) (2022-12-14T01:28:12Z) - Rope3D: TheRoadside Perception Dataset for Autonomous Driving and
Monocular 3D Object Detection Task [48.555440807415664]
道路沿いの知覚3Dデータセットに挑戦する最初のハイダイバーシティを提示する。
データセットは50Kイメージと、さまざまなシーンで1.5M以上の3Dオブジェクトで構成されている。
本稿では,様々なセンサや視点によって引き起こされるあいまいさを解決するために,幾何学的制約を活用することを提案する。
論文 参考訳(メタデータ) (2022-03-25T12:13:23Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Towards Generalization of 3D Human Pose Estimation In The Wild [73.19542580408971]
3DBodyTex.Poseは、3Dの人間のポーズ推定のタスクに対処するデータセットである。
3DBodyTex.Poseは、さまざまな衣服やポーズで405種類の実際の被写体を含む高品質でリッチなデータを提供する。
論文 参考訳(メタデータ) (2020-04-21T13:31:58Z) - Cross-View Tracking for Multi-Human 3D Pose Estimation at over 100 FPS [13.191601826570786]
マルチキャリブレーションカメラビューから複数人の3Dポーズを推定する新しい手法を提案する。
異なるカメラ座標の2Dポーズを入力として取り、グローバル座標の正確な3Dポーズを目指しています。
カメラビューが12から28の大規模マルチヒューマンデータセットを提案する。
論文 参考訳(メタデータ) (2020-03-09T08:54:00Z) - Learning Precise 3D Manipulation from Multiple Uncalibrated Cameras [13.24490469380487]
本稿では,3次元な精密な操作タスクをエンド・ツー・エンドで学習するための効果的なマルチビュー手法を提案する。
提案手法は,ポイントクラウドやボクセルグリッドのような明示的な3D表現を構築することなく,静的に配置された複数のRGBカメラビューを用いて,これらのタスクを達成できることを学習する。
論文 参考訳(メタデータ) (2020-02-21T03:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。