論文の概要: 3DRot: 3D Rotation Augmentation for RGB-Based 3D Tasks
- arxiv url: http://arxiv.org/abs/2508.01423v1
- Date: Sat, 02 Aug 2025 16:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.872793
- Title: 3DRot: 3D Rotation Augmentation for RGB-Based 3D Tasks
- Title(参考訳): 3DRot:RGBベースの3Dタスクのための3D回転増強
- Authors: Shitian Yang, Deyu Li, Xiaoke Jiang, Lei Zhang,
- Abstract要約: 3DRotはプラグ・アンド・プレイで、カメラの光学中心の画像を回転させてミラーする。
古典的な3Dタスク, モノクロ3D検出による3DRotの検証を行った。
カメラ空間変換によって純粋に動作するため、3DRotは他の3Dタスクに簡単に転送できる。
- 参考スコア(独自算出の注目度): 9.19280989823705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-based 3D tasks, e.g., 3D detection, depth estimation, 3D keypoint estimation, still suffer from scarce, expensive annotations and a thin augmentation toolbox, since most image transforms, including resize and rotation, disrupt geometric consistency. In this paper, we introduce 3DRot, a plug-and-play augmentation that rotates and mirrors images about the camera's optical center while synchronously updating RGB images, camera intrinsics, object poses, and 3D annotations to preserve projective geometry-achieving geometry-consistent rotations and reflections without relying on any scene depth. We validate 3DRot with a classical 3D task, monocular 3D detection. On SUN RGB-D dataset, 3DRot raises $IoU_{3D}$ from 43.21 to 44.51, cuts rotation error (ROT) from 22.91$^\circ$ to 20.93$^\circ$, and boosts $mAP_{0.5}$ from 35.70 to 38.11. As a comparison, Cube R-CNN adds 3 other datasets together with SUN RGB-D for monocular 3D estimation, with a similar mechanism and test dataset, increases $IoU_{3D}$ from 36.2 to 37.8, boosts $mAP_{0.5}$ from 34.7 to 35.4. Because it operates purely through camera-space transforms, 3DRot is readily transferable to other 3D tasks.
- Abstract(参考訳): RGBベースの3Dタスク(例えば、3D検出、深さ推定、3Dキーポイント推定)は、リサイズやローテーションを含むほとんどの画像変換が、幾何的整合性を損なうため、いまだに不足し、高価なアノテーションと細い拡張ツールボックスに悩まされている。
本稿では,RGB画像,カメラ内在,オブジェクトポーズ,および3Dアノテーションを同期更新しながら,カメラの光中心の画像の回転とミラー化を行うプラグイン・アンド・プレイ拡張システムである3DRotを紹介する。
古典的な3Dタスク, モノクロ3D検出による3DRotの検証を行った。
SUN RGB-Dデータセットでは、3DRotは$IoU_{3D}$を43.21から44.51に引き上げ、回転誤差(ROT)を22.91$^\circ$から20.93$^\circ$に下げ、$mAP_{0.5}$を35.70から38.11に引き上げる。
比較として、Cube R-CNNはSUN RGB-Dとともに他の3つのデータセットを追加し、モノクロ3D推定と類似のメカニズムとテストデータセットにより、$IoU_{3D}$を36.2から37.8に引き上げ、$mAP_{0.5}$を34.7から35.4に引き上げている。
カメラ空間変換によって純粋に動作するため、3DRotは他の3Dタスクに簡単に転送できる。
関連論文リスト
- 3DGeoDet: General-purpose Geometry-aware Image-based 3D Object Detection [17.502554516157893]
3DGeoDetは幾何学を意識した新しい3Dオブジェクト検出手法である。
屋内および屋外環境では、シングルビューとマルチビューのRGBイメージを効果的に処理する。
論文 参考訳(メタデータ) (2025-06-11T09:18:36Z) - SR3D: Unleashing Single-view 3D Reconstruction for Transparent and Specular Object Grasping [7.222966501323922]
本研究では,単一視界から透明物体とスペキュラ物体をロボットで把握することのできる,学習自由フレームワークSR3Dを提案する。
具体的には、単一のビューRGBと深度画像が与えられた場合、SR3Dはまず外部視覚モデルを使用して3D再構成されたオブジェクトメッシュを生成する。
そして、鍵となるアイデアは、3Dオブジェクトのポーズとスケールを決定し、再構成されたオブジェクトを元の奥行き劣化した3Dシーンに正確にローカライズすることだ。
論文 参考訳(メタデータ) (2025-05-30T07:38:46Z) - TAPIP3D: Tracking Any Point in Persistent 3D Geometry [25.357437591411347]
本稿では,モノクロおよびRGB-Dビデオにおける長期3次元点追跡の新しい手法であるTAPIP3Dを紹介する。
TAPIP3Dは、ビデオをカメラ安定化機能クラウドとして表現し、深度とカメラモーション情報を活用する。
我々の3D中心の定式化は既存の3D点追跡法よりも性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-04-20T19:09:43Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Do 2D GANs Know 3D Shape? Unsupervised 3D shape reconstruction from 2D
Image GANs [156.1209884183522]
GANのような最先端の2D生成モデルは、自然像多様体のモデリングにおいて前例のない品質を示している。
本稿では,RGB画像のみをトレーニングした市販の2D GANから3次元幾何学的手がかりを直接マイニングする試みについて紹介する。
論文 参考訳(メタデータ) (2020-11-02T09:38:43Z) - CubifAE-3D: Monocular Camera Space Cubification for Auto-Encoder based
3D Object Detection [8.134961550216618]
単眼画像を用いた3次元物体検出手法を提案する。
シミュレーションデータから,ペアRGBと深度画像を用いてAEを事前訓練し,その後実データを用いて3DODネットワークをトレーニングする。
我々の3DODネットワークは、カメラ周囲の3D空間の特定のキュビフィケーション(cubification)を利用しており、それぞれのキュビイドは、クラスと信頼値とともに、Nオブジェクトのポーズを予測する。
論文 参考訳(メタデータ) (2020-06-07T08:17:00Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。