論文の概要: ODIN: A Single Model for 2D and 3D Perception
- arxiv url: http://arxiv.org/abs/2401.02416v1
- Date: Thu, 4 Jan 2024 18:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 14:23:56.113487
- Title: ODIN: A Single Model for 2D and 3D Perception
- Title(参考訳): ODIN: 2次元と3次元の知覚のための単一モデル
- Authors: Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley,
Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki
- Abstract要約: ODINは、2D RGBイメージと3Dポイントクラウドのセグメンテーションとラベル付けを行うモデルである。
ScanNet200、Matterport3D、AI2THOR 3Dセグメンテーションベンチマーク上での最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 36.10374071824796
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-of-the-art models on contemporary 3D perception benchmarks like ScanNet
consume and label dataset-provided 3D point clouds, obtained through post
processing of sensed multiview RGB-D images. They are typically trained
in-domain, forego large-scale 2D pre-training and outperform alternatives that
featurize the posed RGB-D multiview images instead. The gap in performance
between methods that consume posed images versus post-processed 3D point clouds
has fueled the belief that 2D and 3D perception require distinct model
architectures. In this paper, we challenge this view and propose ODIN
(Omni-Dimensional INstance segmentation), a model that can segment and label
both 2D RGB images and 3D point clouds, using a transformer architecture that
alternates between 2D within-view and 3D cross-view information fusion. Our
model differentiates 2D and 3D feature operations through the positional
encodings of the tokens involved, which capture pixel coordinates for 2D patch
tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art
performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation
benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It
outperforms all previous works by a wide margin when the sensed 3D point cloud
is used in place of the point cloud sampled from 3D mesh. When used as the 3D
perception engine in an instructable embodied agent architecture, it sets a new
state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and
checkpoints can be found at the project website: https://odin-seg.github.io.
- Abstract(参考訳): ScanNetのような現代の3D知覚ベンチマークの最先端モデルは、認識されたマルチビューRGB-D画像のポスト処理によって得られたデータセットが提供する3Dポイントクラウドを消費する。
それらは通常、ドメイン内でトレーニングされ、大規模な2D事前トレーニングを前もって行われ、代わりに提案されたRGB-Dマルチビューイメージを出力する代替手段よりも優れている。
ポーズ画像の消費方法と後処理の3Dポイントクラウドのパフォーマンスの差は、2Dと3Dの知覚に異なるモデルアーキテクチャが必要であるという信念を後押ししている。
本稿では,2次元イントラビューと3次元クロスビュー情報の融合を交互に行うトランスフォーマーアーキテクチャを用いて,2次元rgb画像と3次元ポイントクラウドの両方を分割・ラベル付け可能なモデルであるodin(omni-dimensional instance segmentation)を提案する。
本モデルは,2次元パッチトークンの画素座標と3次元特徴トークンの3次元座標をキャプチャする,関連するトークンの位置エンコーディングによる2次元特徴演算と3次元特徴演算を区別する。
ODINは、ScanNet200、Matterport3D、AI2THORのインスタンスセグメンテーションベンチマークで最先端のパフォーマンスを達成し、ScanNet、S3DIS、COCO上での競合性能を達成している。
これは、3dメッシュからサンプリングされたポイントクラウドの代わりにセンスされた3dポイントクラウドを使用する場合、以前のすべての作業を大きく上回っている。
インストラクタブルなエンボディードエージェントアーキテクチャで3D知覚エンジンとして使用されると、TEAChアクション・トゥ・ダイアログ・ベンチマークに新たな最先端のテクノロジーが設定される。
私たちのコードとチェックポイントはプロジェクトのwebサイトにある。
関連論文リスト
- ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning [67.61509647032862]
入力された2次元画像を任意の3次元表現にエンコードするGOEmbed(Gradient Origin Embeddings)を提案する。
入力画像が大きな事前訓練されたモデルから抽出された2D特徴を用いて符号化される典型的な従来のアプローチとは異なり、カスタマイズされた特徴は異なる3D表現を扱うように設計されている。
論文 参考訳(メタデータ) (2023-12-14T08:39:39Z) - SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - 2D-3D Interlaced Transformer for Point Cloud Segmentation with
Scene-Level Supervision [36.282611420496416]
本稿では,2つのエンコーダと1つのデコーダを備えた変圧器モデルを提案する。
デコーダは2D-3Dクロスアテンションを実装し、暗黙の2Dおよび3D特徴融合を実行する。
実験により、既存の弱教師付きポイントクラウドセグメンテーション法に対して好適に動作することが示された。
論文 参考訳(メタデータ) (2023-10-19T15:12:44Z) - Lightweight integration of 3D features to improve 2D image segmentation [1.3799488979862027]
画像のセグメンテーションは3次元の基底構造を必要とせずに3次元の幾何学的情報から恩恵を受けることができることを示す。
提案手法は,多くの2次元セグメンテーションネットワークに適用でき,性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T08:22:55Z) - Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。
BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。
BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T05:44:22Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Bidirectional Projection Network for Cross Dimension Scene Understanding [69.29443390126805]
本稿では,2次元および3次元の連立推論のための縦方向投影網(BPNet)をエンドツーエンドに提示する。
emphBPM、補完的な2D、および3D情報は、複数のアーキテクチャレベルで相互に相互作用することができる。
我々のemphBPNetは2次元および3次元セマンティックセマンティックセグメンテーションのためのScanNetV2ベンチマークで最高性能を達成した。
論文 参考訳(メタデータ) (2021-03-26T08:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。