論文の概要: MetaFind: Scene-Aware 3D Asset Retrieval for Coherent Metaverse Scene Generation
- arxiv url: http://arxiv.org/abs/2510.04057v1
- Date: Sun, 05 Oct 2025 06:37:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.426761
- Title: MetaFind: Scene-Aware 3D Asset Retrieval for Coherent Metaverse Scene Generation
- Title(参考訳): MetaFind:コヒーレントなメタバースシーン生成のためのシーン対応3Dアセット検索
- Authors: Zhenyu Pan, Yucheng Lu, Han Liu,
- Abstract要約: シーン対応の3モーダル合成検索フレームワークであるMetaFindを提案する。
大規模リポジトリから3Dアセットを取得することで,メタバースのシーン生成を向上させるように設計されている。
- 参考スコア(独自算出の注目度): 16.539993197236125
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present MetaFind, a scene-aware tri-modal compositional retrieval framework designed to enhance scene generation in the metaverse by retrieving 3D assets from large-scale repositories. MetaFind addresses two core challenges: (i) inconsistent asset retrieval that overlooks spatial, semantic, and stylistic constraints, and (ii) the absence of a standardized retrieval paradigm specifically tailored for 3D asset retrieval, as existing approaches mainly rely on general-purpose 3D shape representation models. Our key innovation is a flexible retrieval mechanism that supports arbitrary combinations of text, image, and 3D modalities as queries, enhancing spatial reasoning and style consistency by jointly modeling object-level features (including appearance) and scene-level layout structures. Methodologically, MetaFind introduces a plug-and-play equivariant layout encoder ESSGNN that captures spatial relationships and object appearance features, ensuring retrieved 3D assets are contextually and stylistically coherent with the existing scene, regardless of coordinate frame transformations. The framework supports iterative scene construction by continuously adapting retrieval results to current scene updates. Empirical evaluations demonstrate the improved spatial and stylistic consistency of MetaFind in various retrieval tasks compared to baseline methods.
- Abstract(参考訳): 大規模レポジトリから3Dアセットを取得することで、メタバースのシーン生成を向上させるためにデザインされた、シーン対応の3モーダル合成検索フレームワークであるMetaFindを提案する。
MetaFindは2つの課題に対処する。
一 空間的・意味的・様式的制約を見渡す不整合資産検索
(II) 既存の手法は主に汎用的な3次元形状表現モデルに依存しているため、特に3次元資産検索に適した標準化された検索パラダイムが存在しない。
我々の重要な革新は、テキスト、画像、および3次元の任意の組み合わせをクエリとしてサポートし、オブジェクトレベルの特徴(外観を含む)とシーンレベルのレイアウト構造を共同でモデル化することにより、空間的推論とスタイル整合性を向上させる柔軟な検索機構である。
メソジカルに、MetaFindは、空間的関係やオブジェクトの外観の特徴をキャプチャし、取得した3Dアセットが座標フレーム変換にかかわらず、既存のシーンとコンテキスト的にスタイリッシュに整合していることを保証する、プラグ・アンド・プレイ同変レイアウトエンコーダESSGNNを導入している。
このフレームワークは、検索結果を現在のシーン更新に継続的に適応させることで、反復的なシーン構築をサポートする。
様々な検索タスクにおけるMetaFindの空間的およびスタイリスティックな整合性の改善を,ベースライン法と比較した実証評価を行った。
関連論文リスト
- ViewSRD: 3D Visual Grounding via Structured Multi-View Decomposition [34.39212457455039]
3Dビジュアルグラウンドティングは、テキスト記述に基づいて、オブジェクトを3D空間で特定し、ローカライズすることを目的としている。
構造化多視点分解プロセスとして3次元視覚グラウンドを定式化するフレームワークであるViewSRDを提案する。
3次元視覚的グラウンドデータセットの実験により、ViewSRDは最先端の手法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-15T12:35:01Z) - Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations [112.29763628638112]
Object-Xは多目的なマルチモーダル3D表現フレームワークである。
リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。
シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
論文 参考訳(メタデータ) (2025-06-05T09:14:42Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - CrossOver: 3D Scene Cross-Modal Alignment [78.3057713547313]
CrossOverは、クロスモーダルな3Dシーン理解のための新しいフレームワークである。
モダリティを整列させることにより、シーンの統一的でモダリティに依存しない埋め込み空間を学ぶ。
堅牢なシーン検索とオブジェクトのローカライゼーションをサポートする。
論文 参考訳(メタデータ) (2025-02-20T20:05:30Z) - Multiview Scene Graph [7.460438046915524]
適切なシーン表現は、空間知性の追求の中心である。
未提示画像からマルチビューシーングラフ(MSG)を構築することを提案する。
MSGは、場所とオブジェクトノードを相互接続したシーンをトポロジ的に表現する。
論文 参考訳(メタデータ) (2024-10-15T02:04:05Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。