論文の概要: ExCap3D: Expressive 3D Scene Understanding via Object Captioning with Varying Detail
- arxiv url: http://arxiv.org/abs/2503.17044v1
- Date: Fri, 21 Mar 2025 11:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:41.997176
- Title: ExCap3D: Expressive 3D Scene Understanding via Object Captioning with Varying Detail
- Title(参考訳): ExCap3D:Varying Detailによるオブジェクトキャプションによる表現型3Dシーン理解
- Authors: Chandan Yeshwanth, David Rozenberszki, Angela Dai,
- Abstract要約: 入力を3Dスキャンとする表現型3DキャプションモデルであるExCap3Dを提案する。
スキャンで検出された各オブジェクトに対して、ExCap3Dはオブジェクトの一部の詳細な集合的記述を生成する。
実験の結果, ExCap3D が生成する細部キャプションのオブジェクトレベルと部分レベルは, 最先端の手法が生成するキャプションよりも高品質であることがわかった。
- 参考スコア(独自算出の注目度): 22.874510058207633
- License:
- Abstract: Generating text descriptions of objects in 3D indoor scenes is an important building block of embodied understanding. Existing methods do this by describing objects at a single level of detail, which often does not capture fine-grained details such as varying textures, materials, and shapes of the parts of objects. We propose the task of expressive 3D captioning: given an input 3D scene, describe objects at multiple levels of detail: a high-level object description, and a low-level description of the properties of its parts. To produce such captions, we present ExCap3D, an expressive 3D captioning model which takes as input a 3D scan, and for each detected object in the scan, generates a fine-grained collective description of the parts of the object, along with an object-level description conditioned on the part-level description. We design ExCap3D to encourage semantic consistency between the generated text descriptions, as well as textual similarity in the latent space, to further increase the quality of the generated captions. To enable this task, we generated the ExCap3D Dataset by leveraging a visual-language model (VLM) for multi-view captioning. The ExCap3D Dataset contains captions on the ScanNet++ dataset with varying levels of detail, comprising 190k text descriptions of 34k 3D objects in 947 indoor scenes. Our experiments show that the object- and part-level of detail captions generated by ExCap3D are of higher quality than those produced by state-of-the-art methods, with a Cider score improvement of 17% and 124% for object- and part-level details respectively. Our code, dataset and models will be made publicly available.
- Abstract(参考訳): 3次元屋内シーンにおける物体のテキスト記述の生成は、具体的理解の重要な構成要素である。
既存の方法では、オブジェクトを単一の詳細レベルで記述することで、オブジェクトのさまざまなテクスチャ、材料、形状といった細かい詳細をキャプチャしないことが多い。
本稿では,3Dキャプションの課題として,入力された3Dシーンを指定し,複数の詳細レベルのオブジェクトを記述すること,高レベルなオブジェクト記述,低レベルな部品の特性記述を提案する。
このようなキャプションを生成するために、3Dスキャンとして入力される表現型3DキャプションモデルであるExCap3Dと、スキャン中の各検出対象に対して、部分レベル記述に条件付けされたオブジェクトレベル記述とともに、対象部分の詳細な集合的記述を生成する。
我々は、生成したテキスト記述間のセマンティックな一貫性を促進するためにExCap3Dを設計し、さらに生成されたキャプションの品質を高めるために、潜在空間におけるテキストの類似性を向上する。
このタスクを実現するために,多視点キャプションに視覚言語モデル(VLM)を活用することで,ExCap3Dデータセットを生成した。
ExCap3D Datasetには、ScanNet++データセットのキャプションが含まれており、947の屋内シーンで34kの3Dオブジェクトの190kのテキスト記述を含んでいる。
実験の結果, ExCap3D が生成したディテールキャプションのオブジェクトレベルとパートレベルは, 最先端手法によるディテールキャプションよりも高品質であり, Cider のスコアは, オブジェクトレベルのディテールでは17%, パートレベルのディテールでは124%向上していた。
私たちのコード、データセット、モデルは公開されます。
関連論文リスト
- View Selection for 3D Captioning via Diffusion Ranking [54.78058803763221]
Cap3D法は、3Dオブジェクトを2Dビューにレンダリングし、事前訓練されたモデルを用いてキャプションを行う。
3Dオブジェクトのレンダリングビューは、標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす。
DiffuRankは、3Dオブジェクトとそれらの2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキストから3Dモデルを利用する手法である。
論文 参考訳(メタデータ) (2024-04-11T17:58:11Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Explore and Tell: Embodied Visual Captioning in 3D Environments [83.00553567094998]
現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。
本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。
本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
論文 参考訳(メタデータ) (2023-08-21T03:46:04Z) - Scalable 3D Captioning with Pretrained Models [63.16604472745202]
Cap3Dは、3Dオブジェクトのための記述テキストを生成するための自動アプローチである。
我々は最近導入された大規模3DデータセットにCap3Dを適用した。
同じデータセットから41kの人的アノテーションを用いて評価を行ったところ、Cap3Dは品質、コスト、スピードの点で人間の記述を超越していることがわかった。
論文 参考訳(メタデータ) (2023-06-12T17:59:03Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z) - Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds [20.172702468478057]
3Dポイントクラウドでのディエンスキャプションは、オブジェクトレベルの3Dシーン理解を含む、視覚と言語に関する新たなタスクである。
本稿では,オブジェクトを記述に変換するトランスフォーマーベースのエンコーダデコーダアーキテクチャ,すなわちSpaCap3Dを提案する。
提案手法は, CIDEr@0.5IoUのベースライン法であるScan2Capを4.94%, CIDEr@0.5IoUで9.61%向上させる。
論文 参考訳(メタデータ) (2022-04-22T13:07:37Z) - Scan2Cap: Context-aware Dense Captioning in RGB-D Scans [10.688467522949082]
本稿では,コモディティRGB-Dセンサを用いた3Dスキャンにおける高密度キャプションの課題について紹介する。
入力シーン内のオブジェクトを検出し,それらを自然言語で記述する,エンドツーエンドのトレーニング手法であるScan2Capを提案する。
ScanReferデータセットから3Dオブジェクトを効果的にローカライズし,記述することができる。
論文 参考訳(メタデータ) (2020-12-03T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。