Fugu-MT 論文翻訳(概要): ImageNet3D: Towards General-Purpose Object-Level 3D Understanding

論文の概要: ImageNet3D: Towards General-Purpose Object-Level 3D Understanding

arxiv url: http://arxiv.org/abs/2406.09613v1
Date: Thu, 13 Jun 2024 22:44:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 17:05:01.908081
Title: ImageNet3D: Towards General-Purpose Object-Level 3D Understanding
Title（参考訳）: ImageNet3D:汎用オブジェクトレベル3D理解を目指して
Authors: Wufei Ma, Guanning Zeng, Guofeng Zhang, Qihao Liu, Letian Zhang, Adam Kortylewski, Yaoyao Liu, Alan Yuille,
Abstract要約: 汎用オブジェクトレベルの3D理解のための大規模データセットであるImageNet3Dを提案する。 ImageNet3Dは、ImageNetデータセットから2Dバウンディングボックス、3Dポーズ、3D位置アノテーション、3D情報でインターリーブされた画像キャプションを含む200のカテゴリを追加している。我々は,標準分類とポーズ推定に加えて,オブジェクトレベルの3D認識とオープン語彙のポーズ推定という2つの新しいタスクを検討する。
参考スコア（独自算出の注目度）: 20.837297477080945
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A vision model with general-purpose object-level 3D understanding should be capable of inferring both 2D (e.g., class name and bounding box) and 3D information (e.g., 3D location and 3D viewpoint) for arbitrary rigid objects in natural images. This is a challenging task, as it involves inferring 3D information from 2D signals and most importantly, generalizing to rigid objects from unseen categories. However, existing datasets with object-level 3D annotations are often limited by the number of categories or the quality of annotations. Models developed on these datasets become specialists for certain categories or domains, and fail to generalize. In this work, we present ImageNet3D, a large dataset for general-purpose object-level 3D understanding. ImageNet3D augments 200 categories from the ImageNet dataset with 2D bounding box, 3D pose, 3D location annotations, and image captions interleaved with 3D information. With the new annotations available in ImageNet3D, we could (i) analyze the object-level 3D awareness of visual foundation models, and (ii) study and develop general-purpose models that infer both 2D and 3D information for arbitrary rigid objects in natural images, and (iii) integrate unified 3D models with large language models for 3D-related reasoning.. We consider two new tasks, probing of object-level 3D awareness and open vocabulary pose estimation, besides standard classification and pose estimation. Experimental results on ImageNet3D demonstrate the potential of our dataset in building vision models with stronger general-purpose object-level 3D understanding.
Abstract（参考訳）: 汎用オブジェクトレベルの3D理解を持つ視覚モデルは、自然画像中の任意の剛性オブジェクトに対して2D(例えば、クラス名とバウンディングボックス)と3D情報(例えば、3D位置と3D視点)の両方を推測することができるべきである。 2D信号から3D情報を推測すること、そして最も重要なことは、目に見えないカテゴリーから固い物体に一般化することである。しかし、オブジェクトレベルの3Dアノテーションを持つ既存のデータセットは、カテゴリの数やアノテーションの品質によって制限されることが多い。これらのデータセットで開発されたモデルは、特定のカテゴリやドメインのスペシャリストとなり、一般化に失敗する。本研究では,汎用オブジェクトレベルの3D理解のための大規模データセットであるImageNet3Dを提案する。 ImageNet3Dは、ImageNetデータセットから2Dバウンディングボックス、3Dポーズ、3D位置アノテーション、3D情報でインターリーブされた画像キャプションを含む200のカテゴリを追加している。 ImageNet3Dで利用できる新しいアノテーションによって、私たちは (i)視覚基礎モデルのオブジェクトレベル3次元認識を分析し、二自然画像における任意の剛体に対して2次元情報と3次元情報の両方を推定する汎用モデルの研究及び開発 (iii)3D関連推論のための大言語モデルと統合された3Dモデルを統合する。と。我々は,標準分類とポーズ推定に加えて,オブジェクトレベルの3D認識とオープン語彙のポーズ推定という2つの新しいタスクを検討する。 ImageNet3Dの実験結果は、より強力な汎用オブジェクトレベルの3D理解を備えた視覚モデル構築における、我々のデータセットの可能性を示している。

関連論文リスト

Detect Anything 3D in the Wild [34.293450721860616]
DetAny3Dは任意のカメラ構成で新しい物体を検知できる3D検出基盤モデルである。 2D知識を3Dに効果的に転送するために、DetAny3Dは2DアグリゲータとZero-Embedding Mappingによる3Dインタプリタという2つのコアモジュールを組み込んでいる。 DetAny3Dは、未確認のカテゴリや新しいカメラ構成の最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-10T17:59:22Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding [10.81711535075112]
3Dビジュアルグラウンディングは、テキスト記述に基づいて3Dシーン内のオブジェクトを見つけることを目的としている。大規模2次元データに基づいて訓練された2次元視覚言語モデル(VLM)を活用したゼロショット3DVGフレームワークであるSeeeGroundを紹介する。本稿では,クエリ関連画像レンダリングの視点を動的に選択するパースペクティブ適応モジュールと,2次元画像と3次元空間記述を統合するFusion Alignmentモジュールの2つのモジュールを提案する。
論文参考訳（メタデータ） (2024-12-05T17:58:43Z)
General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。 KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文参考訳（メタデータ） (2024-07-18T17:52:08Z)
Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。 Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文参考訳（メタデータ） (2023-10-10T16:49:21Z)
Object2Scene: Putting Objects in Context for Open-Vocabulary 3D Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文参考訳（メタデータ） (2023-09-18T03:31:53Z)
3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文参考訳（メタデータ） (2023-07-24T17:59:02Z)
OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。 190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文参考訳（メタデータ） (2023-01-18T18:14:18Z)
3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文参考訳（メタデータ） (2022-12-02T11:31:49Z)
Understanding Pixel-level 2D Image Semantics with 3D Keypoint Knowledge Engine [56.09471066808409]
本稿では,3次元領域における画像に対応するセマンティクスを予測し,それを2次元画像に投影してピクセルレベルの理解を実現する手法を提案する。 16のカテゴリから103,450個のキーポイントと8,234個の3Dモデルを含むKeypointNetと呼ばれる大規模キーポイント知識エンジンを構築した。
論文参考訳（メタデータ） (2021-11-21T13:25:20Z)
3D Object Recognition By Corresponding and Quantizing Neural 3D Scene Representations [29.61554189447989]
本稿では,RGB-D画像からオブジェクトを検出し,その3Dポーズを推測するシステムを提案する。多くの既存のシステムはオブジェクトを識別し、3Dのポーズを推測できるが、それらは人間のラベルや3Dアノテーションに大きく依存している。
論文参考訳（メタデータ） (2020-10-30T13:56:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。