論文の概要: SHREC 2025: Retrieval of Optimal Objects for Multi-modal Enhanced Language and Spatial Assistance (ROOMELSA)
- arxiv url: http://arxiv.org/abs/2508.08781v1
- Date: Tue, 12 Aug 2025 09:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.36614
- Title: SHREC 2025: Retrieval of Optimal Objects for Multi-modal Enhanced Language and Spatial Assistance (ROOMELSA)
- Title(参考訳): SHREC 2025: マルチモーダル拡張言語と空間支援のための最適対象の検索
- Authors: Trong-Thuan Nguyen, Viet-Tham Huynh, Quang-Thuc Nguyen, Hoang-Phuc Nguyen, Long Le Bao, Thai Hoang Minh, Minh Nguyen Anh, Thang Nguyen Tien, Phat Nguyen Thuan, Huy Nguyen Phong, Bao Huynh Thai, Vinh-Tiep Nguyen, Duc-Vu Nguyen, Phu-Hoa Pham, Minh-Huy Le-Hoang, Nguyen-Khang Le, Minh-Chinh Nguyen, Minh-Quan Ho, Ngoc-Long Tran, Hien-Long Le-Hoang, Man-Khoi Tran, Anh-Duong Tran, Kim Nguyen, Quan Nguyen Hung, Dat Phan Thanh, Hoang Tran Van, Tien Huynh Viet, Nhan Nguyen Viet Thien, Dinh-Khoi Vo, Van-Loc Nguyen, Trung-Nghia Le, Tam V. Nguyen, Minh-Triet Tran,
- Abstract要約: 本稿では,自然言語を解釈するシステムの能力を評価するための新しいベンチマークであるROOMELSAを提案する。
ROOMELSAには1,600以上のアパートのシーン、5,200の部屋、44,000以上のターゲットクエリが含まれている。
粗いオブジェクトの検索は大部分が解決されているが、ほぼ全てのテストケースで、常に正しいマッチングをランク付けしているのは1つのトップパフォーマンスモデルのみである。
- 参考スコア(独自算出の注目度): 9.417978104671159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent 3D retrieval systems are typically designed for simple, controlled scenarios, such as identifying an object from a cropped image or a brief description. However, real-world scenarios are more complex, often requiring the recognition of an object in a cluttered scene based on a vague, free-form description. To this end, we present ROOMELSA, a new benchmark designed to evaluate a system's ability to interpret natural language. Specifically, ROOMELSA attends to a specific region within a panoramic room image and accurately retrieves the corresponding 3D model from a large database. In addition, ROOMELSA includes over 1,600 apartment scenes, nearly 5,200 rooms, and more than 44,000 targeted queries. Empirically, while coarse object retrieval is largely solved, only one top-performing model consistently ranked the correct match first across nearly all test cases. Notably, a lightweight CLIP-based model also performed well, although it struggled with subtle variations in materials, part structures, and contextual cues, resulting in occasional errors. These findings highlight the importance of tightly integrating visual and language understanding. By bridging the gap between scene-level grounding and fine-grained 3D retrieval, ROOMELSA establishes a new benchmark for advancing robust, real-world 3D recognition systems.
- Abstract(参考訳): 最近の3D検索システムは一般的に、収穫された画像や簡単な説明からオブジェクトを識別するといった、シンプルで制御されたシナリオのために設計されている。
しかし、現実世界のシナリオはより複雑で、曖昧で自由な記述に基づいて、散らかったシーンでオブジェクトを認識する必要があることが多い。
そこで本研究では,自然言語の解釈能力を評価するための新しいベンチマークであるROOMELSAを提案する。
具体的には、ROOMELSAはパノラマ室画像内の特定の領域に参加し、対応する3Dモデルを大規模データベースから正確に検索する。
さらに、ROOMELSAには1,600以上のアパートのシーン、5,200の部屋、44,000以上のターゲットクエリが含まれている。
経験的には、粗いオブジェクトの検索がほとんど解決されているが、ほぼ全てのテストケースで、常に正しいマッチングをランク付けしているのは1つのトップパフォーマンスモデルのみである。
軽量のCLIPベースのモデルも良好に動作したが、材料、部品構造、コンテキストの微妙な変化に悩まされ、時にエラーが発生した。
これらの知見は、視覚的および言語的理解の密接な統合の重要性を浮き彫りにした。
シーンレベルの接地ときめ細かな3D検索のギャップを埋めることにより、ROOMELSAは、堅牢で実世界の3D認識システムを構築するための新しいベンチマークを確立する。
関連論文リスト
- Composed Object Retrieval: Object-level Retrieval via Composed Expressions [71.47650333199628]
Composed Object Retrieval (COR)は、画像レベルの検索を超えてオブジェクトレベルの精度を達成するための新しいタスクである。
COR127KはCORの最初の大規模ベンチマークであり、408カテゴリの様々な意味変換を持つ127,166個の検索三重項を含む。
また、参照領域エンコーディング、適応型視覚・テキストインタラクション、および領域レベルのコントラスト学習を統合した統合エンドツーエンドモデルであるCOREを提案する。
論文 参考訳(メタデータ) (2025-08-06T13:11:40Z) - SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。
Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。
データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文 参考訳(メタデータ) (2025-07-10T14:01:24Z) - From Dataset to Real-world: General 3D Object Detection via Generalized Cross-domain Few-shot Learning [13.282416396765392]
本稿では,3次元オブジェクト検出においてGCFS(Generalized Cross-domain few-shot)タスクを導入する。
本ソリューションでは,マルチモーダル融合とコントラスト強化型プロトタイプ学習を1つのフレームワークに統合する。
限定対象データから各クラスに対するドメイン固有表現を効果的に捉えるために,コントラスト強化型プロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2025-03-08T17:05:21Z) - RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations [55.74675012171316]
RELOCATEは、長いビデオにおけるビジュアルクエリローカライゼーションの難しいタスクを実行するために設計された、トレーニング不要のベースラインである。
タスク固有のトレーニングを不要にするために、RELOCATEは事前訓練された視覚モデルから派生した領域ベースの表現を利用する。
論文 参考訳(メタデータ) (2024-12-02T18:59:53Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Multi3DRefer: Grounding Text Description to Multiple 3D Objects [15.54885309441946]
本稿では,自然言語記述を用いて,現実の3Dシーンにおけるフレキシブルなオブジェクトをローカライズするタスクを紹介する。
我々のデータセットには1609個のオブジェクトの61926の記述が含まれており、0、単、複数個の対象オブジェクトがそれぞれの記述によって参照される。
コントラスト学習による提案をオンラインでレンダリングすることで,CLIPの2D機能を活用したより良いベースラインを構築する。
論文 参考訳(メタデータ) (2023-09-11T06:03:39Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。