論文の概要: PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes
- arxiv url: http://arxiv.org/abs/2505.05288v1
- Date: Thu, 08 May 2025 14:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.919646
- Title: PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes
- Title(参考訳): PlaceIt3D:リアル3Dシーンにおける言語誘導オブジェクト配置
- Authors: Ahmed Abdelreheem, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Abdelrahman Eldesokey, Peter Wonka, Gabriel Brostow, Sara Vicente, Guillermo Garcia-Hernando,
- Abstract要約: 実写3Dシーンにおける言語誘導オブジェクト配置の新たな課題について紹介する。
グラウンド化などの3次元シーンにおける他の言語誘導型ローカライズタスクと比較して、このタスクには特定の課題がある。
複数の有効な解を持ち、3次元幾何学的関係と自由空間の推論を必要とするため、曖昧である。
- 参考スコア(独自算出の注目度): 37.89787678513378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the novel task of Language-Guided Object Placement in Real 3D Scenes. Our model is given a 3D scene's point cloud, a 3D asset, and a textual prompt broadly describing where the 3D asset should be placed. The task here is to find a valid placement for the 3D asset that respects the prompt. Compared with other language-guided localization tasks in 3D scenes such as grounding, this task has specific challenges: it is ambiguous because it has multiple valid solutions, and it requires reasoning about 3D geometric relationships and free space. We inaugurate this task by proposing a new benchmark and evaluation protocol. We also introduce a new dataset for training 3D LLMs on this task, as well as the first method to serve as a non-trivial baseline. We believe that this challenging task and our new benchmark could become part of the suite of benchmarks used to evaluate and compare generalist 3D LLM models.
- Abstract(参考訳): 実写3Dシーンにおける言語誘導オブジェクト配置の新たな課題について紹介する。
私たちのモデルには、3Dシーンのポイントクラウド、3Dアセット、そして3Dアセットの配置場所を広く記述したテキストプロンプトが与えられます。
ここでのタスクは、プロンプトを尊重する3Dアセットの有効な配置を見つけることです。
グラウンド化などの3次元シーンにおける他の言語誘導型ローカライズタスクと比較して、このタスクには、複数の有効な解が存在するため曖昧であり、3次元幾何学的関係と自由空間に関する推論が必要であるため、特定の課題がある。
我々は,新しいベンチマークと評価プロトコルを提案することで,この課題を提起する。
また、このタスクで3D LLMをトレーニングするための新しいデータセットや、非自明なベースラインとして機能する最初の方法も紹介する。
我々は、この挑戦的なタスクと我々の新しいベンチマークが、ジェネラリストの3D LLMモデルの評価と比較に使用されるベンチマークスイートの一部になると信じている。
関連論文リスト
- Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space [10.49905491984899]
問題を再定義し、3次元のボリュームを分割し、以下の方法を提案する。
従来の2Dピクセルの監督を代行する手法とは異なり、言語埋め込みフィールドをトレーニングするための3Dポイントを直接監督する。
学習した言語フィールドを3DGSに転送し、トレーニング時間や精度を犠牲にすることなく、最初のリアルタイムレンダリング速度を達成する。
論文 参考訳(メタデータ) (2024-08-14T09:50:02Z) - SceneGPT: A Language Model for 3D Scene Understanding [0.9054540533394926]
SceneGPTは,3次元の空間的推論をトレーニングや明示的な3次元の監督なしに行うことができるLLMベースのシーン理解システムである。
本フレームワークの主な構成要素は,1)シーン表現として機能し,シーン内のオブジェクトとその空間関係を符号化する3次元シーングラフ,2)3次元空間推論のための文脈学習に適応可能な事前学習LLMである。
論文 参考訳(メタデータ) (2024-08-13T14:26:30Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - 3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding [12.823274886850697]
我々は3DMITという新しい高速なプロンプトチューニングパラダイムを導入する。
このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、命令プロンプトを3Dモダリティ情報で拡張する。
本研究では,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T12:20:18Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。