論文の概要: WildDepth: A Multimodal Dataset for 3D Wildlife Perception and Depth Estimation
- arxiv url: http://arxiv.org/abs/2603.16816v1
- Date: Tue, 17 Mar 2026 17:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.449104
- Title: WildDepth: A Multimodal Dataset for 3D Wildlife Perception and Depth Estimation
- Title(参考訳): WildDepth:3D野生生物の知覚と深さ推定のためのマルチモーダルデータセット
- Authors: Muhammad Aamir, Naoya Muramatsu, Sangyun Shin, Matthew Wijers, Jiaxing Jhong, Xinyu Hou, Amir Patel, Andrew Markham,
- Abstract要約: 様々な種類の動物から深度推定,行動検出,3次元再構成を行うためのデータセットとベンチマークスイートであるWildDepthを提示する。
その結果,マルチモーダルデータを用いた場合,最大10%のRMSEで深度信頼性が向上し,RGB-LiDAR融合ではチャムファー距離が12%向上することがわかった。
- 参考スコア(独自算出の注目度): 22.96845355447165
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Depth estimation and 3D reconstruction have been extensively studied as core topics in computer vision. Starting from rigid objects with relatively simple geometric shapes, such as vehicles, the research has expanded to address general objects, including challenging deformable objects, such as humans and animals. However, for the animal, in particular, the majority of existing models are trained based on datasets without metric scale, which can help validate image-only models. To address this limitation, we present WildDepth, a multimodal dataset and benchmark suite for depth estimation, behavior detection, and 3D reconstruction from diverse categories of animals ranging from domestic to wild environments with synchronized RGB and LiDAR. Experimental results show that the use of multi-modal data improves depth reliability by up to 10% RMSE, while RGB-LiDAR fusion enhances 3D reconstruction fidelity by 12% in Chamfer distance. By releasing WildDepth and its benchmarks, we aim to foster robust multimodal perception systems that generalize across domains.
- Abstract(参考訳): 深度推定と3次元再構成はコンピュータビジョンのコアトピックとして広く研究されている。
この研究は、車両のような比較的単純な幾何学的な形状の剛体物体から始まり、人間や動物のような難しい変形可能な物体を含む一般的な物体に対処するように拡張された。
しかし、動物にとって、特に既存のモデルのほとんどは、メトリクススケールのないデータセットに基づいてトレーニングされており、画像のみのモデルを検証するのに役立つ。
この制限に対処するため、本研究では、RGBとLiDARを同期した国内環境から野生環境までの様々な種類の動物から、深度推定、行動検出、および3D再構成のためのマルチモーダルデータセットおよびベンチマークスイートであるWildDepthを紹介する。
実験の結果,マルチモーダルデータを用いた場合,最大10%のRMSEで深度信頼性が向上し,RGB-LiDAR融合ではチャムファー距離が12%向上することがわかった。
WildDepthとそのベンチマークをリリースすることにより、ドメインをまたいで一般化する堅牢なマルチモーダル認識システムを促進することを目指している。
関連論文リスト
- RS3DBench: A Comprehensive Benchmark for 3D Spatial Perception in Remote Sensing [71.75704516333394]
本稿では、RS3DBenchと呼ばれるリモートセンシング画像の3次元理解のためのビジュアルベンチマークを提案する。
このデータセットは、54,951対のリモートセンシング画像とピクセルレベルの一致した深度マップを含んでいる。
安定拡散から導かれるリモートセンシング深度推定モデルを導入し,そのマルチモーダル融合機能を利用する。
論文 参考訳(メタデータ) (2025-09-23T11:20:51Z) - ROVR-Open-Dataset: A Large-Scale Depth Dataset for Autonomous Driving [62.9051914830949]
実世界の運転の複雑さを捉えるために設計された,大規模で多様で費用効率のよい深度データセットであるROVRを提案する。
軽量な取得パイプラインは、スケーラブルなコレクションを保証すると同時に、統計的に十分な基礎的真実は堅牢なトレーニングをサポートする。
最先端の単分子深度モデルによるベンチマークでは、厳密なクロスデータセットの一般化失敗が示される。
論文 参考訳(メタデータ) (2025-08-19T16:13:49Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。
本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。
本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文 参考訳(メタデータ) (2025-04-19T08:05:47Z) - X as Supervision: Contending with Depth Ambiguity in Unsupervised Monocular 3D Pose Estimation [12.765995624408557]
マルチハイポテーシス検出と複数の調整済みプレテキストタスクを特徴とする教師なしフレームワークを提案する。
ローカルウィンドウ内のヒートマップから複数の仮説を抽出し、マルチソリューション問題を効果的に管理する。
プリテキストタスクは、SMPLモデルからの3D人間の事前情報を利用して、ポーズ推定の解空間を規則化し、それを3D人間の構造を経験的分布と整合させる。
論文 参考訳(メタデータ) (2024-11-20T04:18:11Z) - Benchmarking Monocular 3D Dog Pose Estimation Using In-The-Wild Motion Capture Data [17.042955091063444]
単眼画像からの3次元犬のポーズ推定に焦点をあてた新しいベンチマーク分析を提案する。
マルチモーダルなデータセット3DDogs-Labは屋内で撮影され、様々な犬種が通路で群がっている。
3DDogs-Wildは、光学マーカーをインペイントし、被験者を多様な環境に配置するデータセットの帰化バージョンです。
また, 3DDogs-Wild を用いたモデルトレーニングにより, フィールド内データの評価において, 性能が向上することを示した。
論文 参考訳(メタデータ) (2024-06-20T15:33:39Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。