論文の概要: OpenAnnotate3D: Open-Vocabulary Auto-Labeling System for Multi-modal 3D
Data
- arxiv url: http://arxiv.org/abs/2310.13398v1
- Date: Fri, 20 Oct 2023 10:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 23:12:10.283437
- Title: OpenAnnotate3D: Open-Vocabulary Auto-Labeling System for Multi-modal 3D
Data
- Title(参考訳): Open Annotate3D:マルチモーダル3次元データのためのオープン語彙自動ラベルシステム
- Authors: Yijie Zhou, Likun Cai, Xianhui Cheng, Zhongxue Gan, Xiangyang Xue, and
Wenchao Ding
- Abstract要約: 我々は、ビジョンとポイントクラウドデータのためのオープンソースのオープンソース語彙自動ラベルシステムOpenAnnotate3Dを紹介する。
本システムは,大規模言語モデルのチェーン・オブ・シント機能と,視覚言語モデルの相互モダリティ機能を統合したシステムである。
- 参考スコア(独自算出の注目度): 42.37939270236269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of big data and large models, automatic annotating functions for
multi-modal data are of great significance for real-world AI-driven
applications, such as autonomous driving and embodied AI. Unlike traditional
closed-set annotation, open-vocabulary annotation is essential to achieve
human-level cognition capability. However, there are few open-vocabulary
auto-labeling systems for multi-modal 3D data. In this paper, we introduce
OpenAnnotate3D, an open-source open-vocabulary auto-labeling system that can
automatically generate 2D masks, 3D masks, and 3D bounding box annotations for
vision and point cloud data. Our system integrates the chain-of-thought
capabilities of Large Language Models (LLMs) and the cross-modality
capabilities of vision-language models (VLMs). To the best of our knowledge,
OpenAnnotate3D is one of the pioneering works for open-vocabulary multi-modal
3D auto-labeling. We conduct comprehensive evaluations on both public and
in-house real-world datasets, which demonstrate that the system significantly
improves annotation efficiency compared to manual annotation while providing
accurate open-vocabulary auto-annotating results.
- Abstract(参考訳): ビッグデータと大規模モデルの時代において、マルチモーダルデータの自動アノテート機能は、自律運転や具体化AIなど、現実のAI駆動アプリケーションにとって非常に重要である。
従来のクローズドセットアノテーションとは異なり、オープン語彙アノテーションは人間レベルの認知能力を達成するために不可欠である。
しかし、マルチモーダル3Dデータのためのオープン語彙自動ラベルシステムはほとんどない。
本稿では,オープンソースのオープンソース自動ラベルシステムopenannotate3dを紹介し,視覚およびポイントクラウドデータのための2dマスク,3dマスク,3dバウンディングボックスアノテーションを自動生成する。
本システムでは,大規模言語モデル (llms) の連鎖的思考能力と視覚言語モデル (vlms) の相互モダリティ機能を統合する。
われわれの知る限り、OpenAnnotate3Dはオープン語彙のマルチモーダル3D自動ラベルのための先駆的な作品の1つである。
筆者らは,公用および内用両方の実世界のデータセットに対して包括的な評価を行い,手動のアノテーションと比較してアノテーション効率が著しく向上し,正確なオープン語彙の自動注釈結果を提供することを示した。
関連論文リスト
- Open3DTrack: Towards Open-Vocabulary 3D Multi-Object Tracking [73.05477052645885]
オープンな語彙的3Dトラッキングを導入し、3Dトラッキングの範囲を広げて、定義済みのカテゴリを超えてオブジェクトを含める。
本稿では,オープン語彙機能を3次元トラッキングフレームワークに統合し,オブジェクトクラスが見えないように一般化する手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T15:48:42Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation [46.998093729036334]
我々は,UniM-OV3Dという,マルチモーダルなオープン・ボキャブラリ・シーン理解ネットワークを提案する。
ポイントクラウドのグローバル機能とローカル機能をよりよく統合するために、階層的なポイントクラウド機能抽出モジュールを設計する。
キャプションからの粗い点列表現の学習を容易にするために,階層型3Dキャプションペアの利用を提案する。
論文 参考訳(メタデータ) (2024-01-21T04:13:58Z) - Unsupervised 3D Perception with 2D Vision-Language Distillation for
Autonomous Driving [39.70689418558153]
本研究では,3次元ラベルを使わずに,オープンなカテゴリのモデルにアモーダルな3次元境界ボックスとトラックレットを生成できるマルチモーダル自動ラベルパイプラインを提案する。
私たちのパイプラインは、ポイントクラウドシーケンスに固有のモーションキューと、利用可能な2Dイメージテキストペアを組み合わせて、すべてのトラフィック参加者を特定し、追跡します。
論文 参考訳(メタデータ) (2023-09-25T19:33:52Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。