論文の概要: SCENEFORGE: Enhancing 3D-text alignment with Structured Scene Compositions
- arxiv url: http://arxiv.org/abs/2509.15693v1
- Date: Fri, 19 Sep 2025 07:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.044889
- Title: SCENEFORGE: Enhancing 3D-text alignment with Structured Scene Compositions
- Title(参考訳): SCENEFORGE: 構造化シーン構成による3Dテキストアライメントの強化
- Authors: Cristian Sbrolli, Matteo Matteucci,
- Abstract要約: SceneForgeは、構造化されたマルチオブジェクトシーンコンポジションを通じて、3Dポイントクラウドとテキスト間のコントラストアライメントを強化するフレームワークである。
構造化された構成サンプルによる対照的なトレーニングを強化することで、SceneForgeは大規模な3Dテキストデータセットの不足に効果的に対処する。
- 参考スコア(独自算出の注目度): 9.41365281895669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The whole is greater than the sum of its parts-even in 3D-text contrastive learning. We introduce SceneForge, a novel framework that enhances contrastive alignment between 3D point clouds and text through structured multi-object scene compositions. SceneForge leverages individual 3D shapes to construct multi-object scenes with explicit spatial relations, pairing them with coherent multi-object descriptions refined by a large language model. By augmenting contrastive training with these structured, compositional samples, SceneForge effectively addresses the scarcity of large-scale 3D-text datasets, significantly enriching data complexity and diversity. We systematically investigate critical design elements, such as the optimal number of objects per scene, the proportion of compositional samples in training batches, and scene construction strategies. Extensive experiments demonstrate that SceneForge delivers substantial performance gains across multiple tasks, including zero-shot classification on ModelNet, ScanObjNN, Objaverse-LVIS, and ScanNet, as well as few-shot part segmentation on ShapeNetPart. SceneForge's compositional augmentations are model-agnostic, consistently improving performance across multiple encoder architectures. Moreover, SceneForge improves 3D visual question answering on ScanQA, generalizes robustly to retrieval scenarios with increasing scene complexity, and showcases spatial reasoning capabilities by adapting spatial configurations to align precisely with textual instructions.
- Abstract(参考訳): 全体は3Dテキストのコントラスト学習における部分の総和よりも大きい。
SceneForgeは3Dポイントクラウドとテキスト間のコントラストアライメントを、構造化されたマルチオブジェクトシーンコンポジションを通じて強化する新しいフレームワークである。
SceneForgeは、個々の3D形状を活用して、空間的関係を明確にしたマルチオブジェクトシーンを構築し、大きな言語モデルによって洗練されたコヒーレントなマルチオブジェクト記述と組み合わせる。
これらの構造化された合成サンプルによる対照的なトレーニングを強化することで、SceneForgeは大規模な3Dテキストデータセットの不足に対処し、データの複雑さと多様性を大幅に強化する。
本研究では,シーンごとのオブジェクトの最適数,トレーニングバッチにおける構成サンプルの割合,シーン構築戦略などの重要な設計要素を体系的に検討する。
大規模な実験では、SceneForgeはModelNet、ScanObjNN、Objaverse-LVIS、ScanNetのゼロショット分類やShapeNetPartの少数ショット部分のセグメンテーションなど、複数のタスクで大幅なパフォーマンス向上を実現している。
SceneForgeのコンポジション拡張はモデルに依存しず、複数のエンコーダアーキテクチャのパフォーマンスを一貫して改善している。
さらに、SceneForgeは、ScanQA上での3次元視覚的質問応答を改善し、シーンの複雑さを増大させるような検索シナリオを強力に一般化し、空間的構成を適応させてテキスト命令と正確に整合させることにより、空間的推論能力を示す。
関連論文リスト
- Hierarchical Image-Guided 3D Point Cloud Segmentation in Industrial Scenes via Multi-View Bayesian Fusion [4.679314646805623]
3Dセグメンテーションは、高密度なレイアウトとマルチスケールオブジェクトを持つ複雑なシーンを理解するために重要である。
既存の3Dポイントベースの手法はコストのかかるアノテーションを必要とするが、画像誘導方式はビュー間のセマンティックな不整合に悩まされることが多い。
本稿では,階層的な画像誘導型3次元セグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-07T15:15:52Z) - MetaFind: Scene-Aware 3D Asset Retrieval for Coherent Metaverse Scene Generation [16.539993197236125]
シーン対応の3モーダル合成検索フレームワークであるMetaFindを提案する。
大規模リポジトリから3Dアセットを取得することで,メタバースのシーン生成を向上させるように設計されている。
論文 参考訳(メタデータ) (2025-10-05T06:37:26Z) - ViewSRD: 3D Visual Grounding via Structured Multi-View Decomposition [34.39212457455039]
3Dビジュアルグラウンドティングは、テキスト記述に基づいて、オブジェクトを3D空間で特定し、ローカライズすることを目的としている。
構造化多視点分解プロセスとして3次元視覚グラウンドを定式化するフレームワークであるViewSRDを提案する。
3次元視覚的グラウンドデータセットの実験により、ViewSRDは最先端の手法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-15T12:35:01Z) - TextSplat: Text-Guided Semantic Fusion for Generalizable Gaussian Splatting [46.753153357441505]
一般化可能なガウススプラッティングは、スパース入力ビューから頑健な3次元再構成を可能にした。
テキスト駆動型ジェネリックライザブルガウシアンスティングフレームワークであるTextSplatを提案する。
論文 参考訳(メタデータ) (2025-04-13T14:14:10Z) - CrossOver: 3D Scene Cross-Modal Alignment [78.3057713547313]
CrossOverは、クロスモーダルな3Dシーン理解のための新しいフレームワークである。
モダリティを整列させることにより、シーンの統一的でモダリティに依存しない埋め込み空間を学ぶ。
堅牢なシーン検索とオブジェクトのローカライゼーションをサポートする。
論文 参考訳(メタデータ) (2025-02-20T20:05:30Z) - BloomScene: Lightweight Structured 3D Gaussian Splatting for Crossmodal Scene Generation [54.12899218104669]
3Dシーンは非常に複雑な構造を持ち、出力が密度が高く、一貫性があり、必要な全ての構造を含むことを保証する必要がある。
現在の3Dシーン生成法は、事前訓練されたテキスト・画像拡散モデルと単眼深度推定器に依存している。
クロスモーダルシーン生成のための軽量な3次元ガウススプラッティングであるBloomSceneを提案する。
論文 参考訳(メタデータ) (2025-01-15T11:33:34Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。