論文の概要: Adding Another Dimension to Image-based Animal Detection
- arxiv url: http://arxiv.org/abs/2604.09210v1
- Date: Fri, 10 Apr 2026 10:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.829994
- Title: Adding Another Dimension to Image-based Animal Detection
- Title(参考訳): 画像に基づく動物検出に別の次元を加える
- Authors: Vandita Shukla, Fabio Remondino, Benjamin Risse,
- Abstract要約: 検出アルゴリズムは、カメラに対して動物の向きに関する情報が欠けている2Dバウンディングボックスにつながる。
本稿では,3次元境界ボックスを推定し,ロバストなラベルとして2次元画像空間に投影するパイプラインを提案する。
この手法をアニマル3Dデータセット上で評価し,種や設定の精度を検証した。
- 参考スコア(独自算出の注目度): 3.0707196190091532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular imaging of animals inherently reduces 3D structures to 2D projections. Detection algorithms lead to 2D bounding boxes that lack information about animal's orientation relative to the camera. To build 3D detection methods for RGB animal images, there is a lack of labeled datasets; such labeling processes require 3D input streams along with RGB data. We present a pipeline that utilises Skinned Multi Animal Linear models to estimate 3D bounding boxes and to project them as robust labels into 2D image space using a dedicated camera pose refinement algorithm. To assess which sides of the animal are captured, cuboid face visibility metrics are computed. These 3D bounding boxes and metrics form a crucial step toward developing and benchmarking future monocular 3D animal detection algorithms. We evaluate our method on the Animal3D dataset, demonstrating accurate performance across species and settings.
- Abstract(参考訳): 動物の単分子イメージングは本質的に3D構造を2Dプロジェクションに還元する。
検出アルゴリズムは、カメラに対して動物の向きに関する情報が欠けている2Dバウンディングボックスにつながる。
RGB動物画像の3D検出方法を構築するには、ラベル付きデータセットが不足しており、そのようなラベル付けプロセスはRGBデータとともに3D入力ストリームを必要とする。
本稿では,Skinned Multi Animal Linear モデルを用いて3次元境界ボックスを推定し,それをロバストなラベルとして2次元画像空間に投影するパイプラインを提案する。
動物のどの側面が捕獲されたかを評価するために、立方体顔の視認性測定値が計算される。
これらの3Dバウンディングボックスとメトリクスは、将来のモノラルな3D動物検出アルゴリズムの開発とベンチマークのための重要なステップを形成する。
この手法をアニマル3Dデータセット上で評価し,種や設定の精度を検証した。
関連論文リスト
- Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。
本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。
画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文 参考訳(メタデータ) (2025-07-24T14:53:26Z) - 3DGeoDet: General-purpose Geometry-aware Image-based 3D Object Detection [17.502554516157893]
3DGeoDetは幾何学を意識した新しい3Dオブジェクト検出手法である。
屋内および屋外環境では、シングルビューとマルチビューのRGBイメージを効果的に処理する。
論文 参考訳(メタデータ) (2025-06-11T09:18:36Z) - Recursive Cross-View: Use Only 2D Detectors to Achieve 3D Object
Detection without 3D Annotations [0.5439020425819]
本稿では,完全指向の3D境界ボックスを予測しながら,一切の3Dアノテーションを要求しない手法を提案する。
再帰的クロスビュー(Recursive Cross-View, RCV)と呼ばれる手法は, 3次元検出を複数の2次元検出タスクに変換するために3次元原理を利用する。
RCVは、3Dラベルを使わずに完全な3Dボックスを生成する最初の3D検出方法である。
論文 参考訳(メタデータ) (2022-11-14T04:51:05Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - Accelerate 3D Object Processing via Spectral Layout [1.52292571922932]
本稿では,3次元オブジェクトに重要な情報を2次元空間に包含する手法を提案する。
提案手法は3Dオブジェクトに対して高品質な2D表現を実現し,3Dオブジェクトの処理に2Dベースの手法を用いることができる。
論文 参考訳(メタデータ) (2021-10-25T03:18:37Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。