論文の概要: Language-guided 3D scene synthesis for fine-grained functionality understanding
- arxiv url: http://arxiv.org/abs/2511.23230v1
- Date: Fri, 28 Nov 2025 14:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.934385
- Title: Language-guided 3D scene synthesis for fine-grained functionality understanding
- Title(参考訳): きめ細かい機能理解のための言語誘導型3次元シーン合成
- Authors: Jaime Corsetti, Francesco Giuliari, Davide Boscaini, Pedro Hermosilla, Andrea Pilzer, Guofeng Mei, Alexandros Delitzas, Francis Engelmann, Fabio Poiesi,
- Abstract要約: タスクベース3Dシーン合成の最初の手法であるSynthFun3Dを紹介する。
パートレベルのアノテーションを備えた家具資産データベースを用いて,室内3次元環境を生成する。
適切な機能要素の3Dマスクを自動的に識別し、取り出すアクションが原因である。
- 参考スコア(独自算出の注目度): 64.148891566272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Functionality understanding in 3D, which aims to identify the functional element in a 3D scene to complete an action (e.g., the correct handle to "Open the second drawer of the cabinet near the bed"), is hindered by the scarcity of real-world data due to the substantial effort needed for its collection and annotation. To address this, we introduce SynthFun3D, the first method for task-based 3D scene synthesis. Given the action description, SynthFun3D generates a 3D indoor environment using a furniture asset database with part-level annotation, ensuring the action can be accomplished. It reasons about the action to automatically identify and retrieve the 3D mask of the correct functional element, enabling the inexpensive and large-scale generation of high-quality annotated data. We validate SynthFun3D through user studies, which demonstrate improved scene-prompt coherence compared to other approaches. Our quantitative results further show that the generated data can either replace real data with minor performance loss or supplement real data for improved performance, thereby providing an inexpensive and scalable solution for data-hungry 3D applications. Project page: github.com/tev-fbk/synthfun3d.
- Abstract(参考訳): 動作完了のための3Dシーンの機能的要素を特定することを目的とした3Dの機能的理解(例えば「ベッド近傍のキャビネットの第2の引き出し」の正しいハンドル)は,その収集やアノテーションに要する多大な労力のために,現実のデータ不足によって妨げられる。
そこで本研究では,タスクベース3Dシーン合成の最初の手法であるSynthFun3Dを紹介する。
アクション記述を前提として、SynthFun3Dは、パートレベルのアノテーションを備えた家具資産データベースを使用して3次元屋内環境を生成し、アクションを確実に達成する。
適切な機能要素の3Dマスクを自動的に識別して取得する動作を理由として、安価で大規模に高品質な注釈付きデータを生成することができる。
我々は,SynthFun3Dをユーザスタディにより検証し,他の手法と比較してシーンプロンプトのコヒーレンスが改善されたことを示す。
さらに定量的な結果から, 生成したデータは, 性能損失の少ない実データを置き換えるか, 性能改善のために実データを補うかのどちらかで, 安価でスケーラブルな3Dアプリケーションを実現することができることがわかった。
プロジェクトページ: github.com/tev-fbk/synthfun3d
関連論文リスト
- Segment Any 3D-Part in a Scene from a Sentence [50.46950922754459]
本稿では,自然言語記述に基づくシーン内の任意の3次元部分のセグメンテーションを実現することを目的とする。
本稿では,高密度部分アノテーションを用いた最初の大規模3Dデータセットである3D-PUデータセットを紹介する。
手法面では,パートレベルセグメンテーションの課題に対処する3DインプットのみのフレームワークであるOpenPart3Dを提案する。
論文 参考訳(メタデータ) (2025-06-24T05:51:22Z) - Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces [113.91791599146786]
本稿では,RGB-D画像から実世界の屋内環境の3次元シーングラフを推定するタスクを紹介する。
オブジェクトの空間的関係に焦点を当てた従来の3Dシーングラフとは異なり、機能的な3Dシーングラフはオブジェクト、インタラクティブな要素、およびそれらの機能的関係をキャプチャする。
我々は,拡張されたSceneFun3Dデータセットと新たに収集されたFunGraph3Dに対して,機能的な3Dシーングラフを付加したアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-24T22:53:19Z) - Open-Vocabulary High-Resolution 3D (OVHR3D) Data Segmentation and Annotation Framework [1.1280113914145702]
本研究の目的は,3次元セグメンテーションタスクのための包括的で効率的なフレームワークの設計と開発である。
このフレームワークはGrounding DINOとSegment Any Modelを統合し、3Dメッシュによる2D画像レンダリングの強化によって強化される。
論文 参考訳(メタデータ) (2024-12-09T07:39:39Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - Prompt-guided Scene Generation for 3D Zero-Shot Learning [8.658191774247944]
本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。
まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。
我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
論文 参考訳(メタデータ) (2022-09-29T11:24:33Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。