Fugu-MT 論文翻訳(概要): ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved Visio-Linguistic Models in 3D Scenes

論文の概要: ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved Visio-Linguistic Models in 3D Scenes

arxiv url: http://arxiv.org/abs/2212.06250v1
Date: Mon, 12 Dec 2022 21:25:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-14 14:49:31.705434
Title: ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved Visio-Linguistic Models in 3D Scenes
Title（参考訳）: scanents3d: 3dシーンにおける visio-linguistic model の改良
Authors: Ahmed Abdelreheem, Kyle Olszewski, Hsin-Ying Lee, Peter Wonka, Panos Achlioptas
Abstract要約: ScanEnts3D(ScanEnts3D)データセットは、84kの自然参照文にわたる369kオブジェクト間の明示的な対応を提供する。この新たなデータセットから学習できる直感的な損失を取り入れることで、最近導入されたニューラルリスニングアーキテクチャの性能を大幅に改善できることを示す。
参考スコア（独自算出の注目度）: 48.65360357173095
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The two popular datasets ScanRefer [16] and ReferIt3D [3] connect natural language to real-world 3D data. In this paper, we curate a large-scale and complementary dataset extending both the aforementioned ones by associating all objects mentioned in a referential sentence to their underlying instances inside a 3D scene. Specifically, our Scan Entities in 3D (ScanEnts3D) dataset provides explicit correspondences between 369k objects across 84k natural referential sentences, covering 705 real-world scenes. Crucially, we show that by incorporating intuitive losses that enable learning from this novel dataset, we can significantly improve the performance of several recently introduced neural listening architectures, including improving the SoTA in both the Nr3D and ScanRefer benchmarks by 4.3% and 5.0%, respectively. Moreover, we experiment with competitive baselines and recent methods for the task of language generation and show that, as with neural listeners, 3D neural speakers can also noticeably benefit by training with ScanEnts3D, including improving the SoTA by 13.2 CIDEr points on the Nr3D benchmark. Overall, our carefully conducted experimental studies strongly support the conclusion that, by learning on ScanEnts3D, commonly used visio-linguistic 3D architectures can become more efficient and interpretable in their generalization without needing to provide these newly collected annotations at test time. The project's webpage is https://scanents3d.github.io/ .
Abstract（参考訳）: ScanRefer [16]とReferIt3D [3]の2つの人気のあるデータセットは、自然言語を現実世界の3Dデータに結びつける。本稿では,参照文で言及されるすべてのオブジェクトと,その基礎となるインスタンスを3dシーン内で関連付けることで,上記2つを拡張した大規模かつ補完的なデータセットをキュレートする。特に、3d(scanents3d)データセットのスキャンエンティティは、84kの自然参照文にまたがる369kオブジェクト間の明示的な対応を提供し、705の現実世界のシーンをカバーします。重要なのは、この新しいデータセットから学習できる直感的な損失を組み込むことで、Nr3DとScanReferのベンチマークでそれぞれ4.3%と5.0%の改善を含む、最近導入されたいくつかのニューラルリスニングアーキテクチャのパフォーマンスを大幅に改善できることである。さらに,nr3dベンチマークにおけるsitaの13.2cider点の改善を含む3dニューラル話者のトレーニングにより,言語生成タスクの競合ベースラインと最近の手法を実験し,ニューラルリスナーと同様に3dニューラル話者もscanents3dで明らかに有益であることを示す。本研究は,ScanEnts3Dを学習することで,新たに収集したアノテーションをテスト時に提供することなく,より効率的かつ解釈可能な3Dアーキテクチャを実現することができるという結論を強く支持する。プロジェクトのwebページはhttps://scanents3d.github.io/。

関連論文リスト

3D-MoRe: Unified Modal-Contextual Reasoning for Embodied Question Answering [52.01655676571933]
3D-MoReは、基礎モデルの強みを活用して、大規模な3D言語データセットを生成するように設計されている。このフレームワークは、マルチモーダル埋め込み、クロスモーダルインタラクション、言語モデルデコーダなど、主要なコンポーネントを統合している。 ScanNetの3DシーンデータセットとScanQAとScanReferのテキストアノテーションを使用して、3D-MoReは62,000の質問応答ペアと73,000のオブジェクト記述を生成する。
論文参考訳（メタデータ） (2025-07-16T08:38:26Z)
Text-guided Synthetic Geometric Augmentation for Zero-shot 3D Understanding [27.755532663325244]
Textguided Geometric Augmentation (TeGA)は、ゼロショット3D分類においてSoTAを実現する言語イメージ3D事前訓練用に調整されている。我々は,TeGAが3Dデータギャップを効果的に橋渡しし,実際の訓練データに限りなく頑健なゼロショット3D分類を可能にすることを示す。
論文参考訳（メタデータ） (2025-01-16T03:54:06Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文参考訳（メタデータ） (2024-05-16T18:03:41Z)
Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans [6.936271803454143]
3Dシーンにおけるクロスデータセット視覚的グラウンド化のための新しいタスク(Cross3DVG)を提案する。大規模な3DビジュアルグラウンドデータセットであるROOReferを作成しました。 3RScanの1,380の屋内RGB-Dスキャンで、63万以上の3Dオブジェクトが記述されている。
論文参考訳（メタデータ） (2023-05-23T09:52:49Z)
OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。 190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文参考訳（メタデータ） (2023-01-18T18:14:18Z)
Prompt-guided Scene Generation for 3D Zero-Shot Learning [8.658191774247944]
本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
論文参考訳（メタデータ） (2022-09-29T11:24:33Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)
RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文参考訳（メタデータ） (2021-08-17T17:56:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。