論文の概要: Interactive Annotation of 3D Object Geometry using 2D Scribbles
- arxiv url: http://arxiv.org/abs/2008.10719v2
- Date: Mon, 26 Oct 2020 02:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 09:14:46.853453
- Title: Interactive Annotation of 3D Object Geometry using 2D Scribbles
- Title(参考訳): 2次元スクリブルを用いた3次元物体形状のインタラクティブアノテーション
- Authors: Tianchang Shen, Jun Gao, Amlan Kar, Sanja Fidler
- Abstract要約: 本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。
当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
- 参考スコア(独自算出の注目度): 84.51514043814066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inferring detailed 3D geometry of the scene is crucial for robotics
applications, simulation, and 3D content creation. However, such information is
hard to obtain, and thus very few datasets support it. In this paper, we
propose an interactive framework for annotating 3D object geometry from both
point cloud data and RGB imagery. The key idea behind our approach is to
exploit strong priors that humans have about the 3D world in order to
interactively annotate complete 3D shapes. Our framework targets naive users
without artistic or graphics expertise. We introduce two simple-to-use
interaction modules. First, we make an automatic guess of the 3D shape and
allow the user to provide feedback about large errors by drawing scribbles in
desired 2D views. Next, we aim to correct minor errors, in which users drag and
drop mesh vertices, assisted by a neural interactive module implemented as a
Graph Convolutional Network. Experimentally, we show that only a few user
interactions are needed to produce good quality 3D shapes on popular benchmarks
such as ShapeNet, Pix3D and ScanNet. We implement our framework as a web
service and conduct a user study, where we show that user annotated data using
our method effectively facilitates real-world learning tasks. Web service:
http://www.cs.toronto.edu/~shenti11/scribble3d.
- Abstract(参考訳): シーンの詳細な3D形状を推定することは、ロボット工学の応用、シミュレーション、および3Dコンテンツ作成に不可欠である。
しかし、そのような情報は入手が困難であるため、それをサポートするデータセットはほとんどない。
本稿では,ポイントクラウドデータとrgb画像の両方から3次元物体形状をアノテートするインタラクティブなフレームワークを提案する。
このアプローチの背景にある重要な考え方は、人間が3D世界について持つ強い先入観を利用して、完全な3D形状を対話的に注釈付けすることだ。
当社のフレームワークは,芸術的あるいはグラフィック的な専門知識のないナイーブユーザを対象としています。
本稿では2つのシンプルな相互作用モジュールを紹介する。
まず,3次元形状の自動推定を行い,所望の2次元ビューにスクリブルを描画することで,大きな誤差に対するフィードバックを提供する。
次に,グラフ畳み込みネットワークとして実装されたニューラルインタラクティブモジュールを用いて,メッシュ頂点のドラッグアンドドロップによるマイナーエラーの修正を目標とする。
実験により,ShapeNet,Pix3D,ScanNetなどの一般的なベンチマークにおいて,高品質な3D形状を実現するためには,少数のユーザインタラクションが必要であることがわかった。
本フレームワークをwebサービスとして実装し,ユーザ調査を行い,実世界の学習タスクを効果的に効率化することを示す。
webサービス: http://www.cs.toronto.edu/~shenti11/scribble3d。
関連論文リスト
- Weakly-Supervised 3D Scene Graph Generation via Visual-Linguistic Assisted Pseudo-labeling [9.440800948514449]
視覚言語支援擬似ラベルを用いた弱教師付き3次元シーングラフ生成法を提案する。
我々の3D-VLAPは、テキストと2D画像のセマンティクスを調整するために、現在の大規模視覚言語モデルの優れた能力を利用する。
エッジ自己アテンションに基づくグラフニューラルネットワークを設計し、3Dポイントクラウドシーンのシーングラフを生成する。
論文 参考訳(メタデータ) (2024-04-03T07:30:09Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。
学習した視覚表現の質を高める能力について実証的に示す。
提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-25T17:12:08Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Parameter-Efficient Person Re-identification in the 3D Space [51.092669618679615]
我々は3次元空間に2D画像を投影し、新しいパラメータ効率のOmniスケールグラフネットワーク(OG-Net)を導入し、3次元点雲から直接歩行者表現を学習する。
OG-Netはスパース3Dポイントが提供するローカル情報を効果的に活用し、その構造と外観情報を一貫性のある方法で活用する。
私たちは3D空間における人物の再識別を行う最初の試みの1つです。
論文 参考訳(メタデータ) (2020-06-08T13:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。