論文の概要: Mix3D: Out-of-Context Data Augmentation for 3D Scenes
- arxiv url: http://arxiv.org/abs/2110.02210v1
- Date: Tue, 5 Oct 2021 17:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 15:15:25.718299
- Title: Mix3D: Out-of-Context Data Augmentation for 3D Scenes
- Title(参考訳): Mix3D: 3Dシーンのアウトオブコンテキストデータ拡張
- Authors: Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis
Engelmann
- Abstract要約: 大規模3Dシーンのセグメンテーションのためのデータ拡張手法であるMix3Dを提案する。
実験では、屋内(ScanNet, S3DIS)および屋外データセットにおいて、Mix3Dの利益をトレーニングしたモデルが顕著に向上したことを示す。
- 参考スコア(独自算出の注目度): 33.939743149673696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Mix3D, a data augmentation technique for segmenting large-scale 3D
scenes. Since scene context helps reasoning about object semantics, current
works focus on models with large capacity and receptive fields that can fully
capture the global context of an input 3D scene. However, strong contextual
priors can have detrimental implications like mistaking a pedestrian crossing
the street for a car. In this work, we focus on the importance of balancing
global scene context and local geometry, with the goal of generalizing beyond
the contextual priors in the training set. In particular, we propose a "mixing"
technique which creates new training samples by combining two augmented scenes.
By doing so, object instances are implicitly placed into novel out-of-context
environments and therefore making it harder for models to rely on scene context
alone, and instead infer semantics from local structure as well. We perform
detailed analysis to understand the importance of global context, local
structures and the effect of mixing scenes. In experiments, we show that models
trained with Mix3D profit from a significant performance boost on indoor
(ScanNet, S3DIS) and outdoor datasets (SemanticKITTI). Mix3D can be trivially
used with any existing method, e.g., trained with Mix3D, MinkowskiNet
outperforms all prior state-of-the-art methods by a significant margin on the
ScanNet test benchmark 78.1 mIoU. Code is available at:
https://nekrasov.dev/mix3d/
- Abstract(参考訳): 大規模3Dシーンをセグメント化するためのデータ拡張手法であるMix3Dを提案する。
シーンコンテキストはオブジェクトセマンティクスの推論に役立つため、現在の作業は、入力された3Dシーンのグローバルコンテキストを完全にキャプチャできる、大きなキャパシティと受容的なフィールドを持つモデルに焦点を当てている。
しかし、強い文脈優先は、通りを横断する歩行者を車と間違えるなど、有害な意味合いを持つ可能性がある。
本研究では,グローバルシーンのコンテキストと局所幾何学のバランスをとることの重要性に焦点をあて,トレーニングセットの文脈的前提を超えた一般化を目指す。
特に,拡張シーンを2つ組み合わせて新たなトレーニングサンプルを作成する「混合」手法を提案する。
そうすることで、オブジェクトインスタンスは新しいコンテキスト外環境に暗黙的に配置されるため、モデルがシーンコンテキストのみに依存することが難しくなり、代わりにローカル構造からセマンティクスを推論する。
グローバルコンテキストの重要性,局所構造,シーン混合の効果を理解するために,詳細な分析を行う。
実験では,室内(ScanNet,S3DIS)および屋外データセット(SemanticKITTI)において,Mix3Dの収益率をトレーニングしたモデルについて検討した。
例えば、mix3dでトレーニングされたminkowskinetは、scannet test benchmark 78.1 miouで、以前のすべてのstate-of-the-artメソッドを大きく上回っている。
コードは https://nekrasov.dev/mix3d/
関連論文リスト
- OSN: Infinite Representations of Dynamic 3D Scenes from Monocular Videos [7.616167860385134]
モノクラーRGBビデオから基礎となる動的3Dシーンの表現を復元することは、長い間困難であった。
我々はOSNと呼ばれる新しいフレームワークを導入し、入力ビデオにマッチする高機能な3Dシーン構成を学習する。
本手法は, きめ細かい3次元シーン形状を学習する上で, 明らかな優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T05:03:46Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキスト記述のみで高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。
本手法では,シーン表現のための3次元ガウスガイドを,意味的プリミティブ(オブジェクト)とその空間変換によって構成する。
プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Prompt-guided Scene Generation for 3D Zero-Shot Learning [8.658191774247944]
本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。
まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。
我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
論文 参考訳(メタデータ) (2022-09-29T11:24:33Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Semantic Scene Completion via Integrating Instances and Scene
in-the-Loop [73.11401855935726]
Semantic Scene Completionは、単一の視野深度またはRGBD画像から正確なボキセルワイズセマンティクスで完全な3Dシーンを再構築することを目指しています。
本稿では、シーンレベルのセマンティクス情報とインスタンスレベルのセマンティクス情報の両方を利用するScene-Instance-Scene Network(textitSISNet)を提案する。
本手法は, セマンティックなカテゴリが容易に混在している近傍のオブジェクトと同様に, きめ細かい形状の細部を推定できる。
論文 参考訳(メタデータ) (2021-04-08T09:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。