Fugu-MT 論文翻訳(概要): 3D-COCO: extension of MS-COCO dataset for image detection and 3D reconstruction modules

論文の概要: 3D-COCO: extension of MS-COCO dataset for image detection and 3D reconstruction modules

arxiv url: http://arxiv.org/abs/2404.05641v1
Date: Mon, 8 Apr 2024 16:21:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 13:45:54.563958
Title: 3D-COCO: extension of MS-COCO dataset for image detection and 3D reconstruction modules
Title（参考訳）: 3D-COCO:画像検出用MS-COCOデータセットと3D再構成モジュールの拡張
Authors: Maxence Bideaux, Alice Phe, Mohamed Chaouch, Bertrand Luvison, Quoc-Cuong Pham,
Abstract要約: 3D-COCOは、3Dモデルと2D-3Dアライメントアノテーションを提供するMS-COCOデータセットの拡張である。 3D-COCOのオープンソース性は、新しい3D関連トピック研究の道を開くためのプレミアである。
参考スコア（独自算出の注目度）: 29.05480249161834
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce 3D-COCO, an extension of the original MS-COCO dataset providing 3D models and 2D-3D alignment annotations. 3D-COCO was designed to achieve computer vision tasks such as 3D reconstruction or image detection configurable with textual, 2D image, and 3D CAD model queries. We complete the existing MS-COCO dataset with 28K 3D models collected on ShapeNet and Objaverse. By using an IoU-based method, we match each MS-COCO annotation with the best 3D models to provide a 2D-3D alignment. The open-source nature of 3D-COCO is a premiere that should pave the way for new research on 3D-related topics. The dataset and its source codes is available at https://kalisteo.cea.fr/index.php/coco3d-object-detection-and-reconstruction/
Abstract（参考訳）: 3Dモデルと2D-3Dアライメントアノテーションを提供するMS-COCOデータセットの拡張である3D-COCOを紹介する。 3D-COCOは、テキスト、2D画像、および3DCADモデルクエリで構成可能な3D再構成や画像検出などのコンピュータビジョンタスクを実現するように設計されている。既存のMS-COCOデータセットは、ShapeNetとObjaverseで収集された28Kの3Dモデルで完結する。 IoUをベースとした手法により,各MS-COCOアノテーションと最適な3Dモデルとをマッチングし,2D-3Dアライメントを実現する。 3D-COCOのオープンソース性は、新しい3D関連トピック研究の道を開くためのプレミアである。データセットとそのソースコードはhttps://kalisteo.cea.fr/index.php/coco3d-object-detection-and-reconstruction/で公開されている。

関連論文リスト

3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [58.78881632019072]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文参考訳（メタデータ） (2025-07-31T13:56:41Z)
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。 3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文参考訳（メタデータ） (2025-06-05T17:56:12Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
UnCommon Objects in 3D [48.346028711704975]
3Dディープラーニングと3D生成AIのための新しいオブジェクト中心データセットである、Uncommon Objects in 3D (uCO3D)を紹介する。 uCO3Dは3Dアノテーション付きオブジェクトの高解像度ビデオのコレクションとしては最大で、360ドル(約3万3000円)のカバレッジが保証されている。我々は,MVImgNet,CO3Dv2,uCO3Dで大規模3Dモデルをトレーニングし,後者を用いて優れた結果を得た。
論文参考訳（メタデータ） (2025-01-13T18:59:20Z)
ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-08-30T05:57:01Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。 Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文参考訳（メタデータ） (2023-10-10T16:49:21Z)
Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans [6.936271803454143]
3Dシーンにおけるクロスデータセット視覚的グラウンド化のための新しいタスク(Cross3DVG)を提案する。大規模な3DビジュアルグラウンドデータセットであるROOReferを作成しました。 3RScanの1,380の屋内RGB-Dスキャンで、63万以上の3Dオブジェクトが記述されている。
論文参考訳（メタデータ） (2023-05-23T09:52:49Z)
Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文参考訳（メタデータ） (2023-02-27T17:56:18Z)
XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文参考訳（メタデータ） (2022-10-06T15:54:01Z)
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文参考訳（メタデータ） (2021-04-22T09:35:35Z)
3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文参考訳（メタデータ） (2021-04-06T02:22:24Z)
PvDeConv: Point-Voxel Deconvolution for Autoencoding CAD Construction in 3D [23.87757211847093]
コンピュータ支援設計(cad)モデルの基盤となる形状を密に記述した10k点の高分解能点雲を合成することを学ぶ。 50k以上のCADモデルとその対応する3Dメッシュを含む新しい専用データセット、CC3Dを紹介します。このデータセットは、3Dスキャン(CADモデル)のペアからサンプリングされた点雲の畳み込みオートエンコーダを学ぶために使用される。
論文参考訳（メタデータ） (2021-01-12T14:14:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。