論文の概要: ViewSRD: 3D Visual Grounding via Structured Multi-View Decomposition
- arxiv url: http://arxiv.org/abs/2507.11261v2
- Date: Sun, 27 Jul 2025 06:20:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.962934
- Title: ViewSRD: 3D Visual Grounding via Structured Multi-View Decomposition
- Title(参考訳): ViewSRD:構造化多視点分解による3次元視覚グラウンド
- Authors: Ronggang Huang, Haoxin Yang, Yan Cai, Xuemiao Xu, Huaidong Zhang, Shengfeng He,
- Abstract要約: 3Dビジュアルグラウンドティングは、テキスト記述に基づいて、オブジェクトを3D空間で特定し、ローカライズすることを目的としている。
構造化多視点分解プロセスとして3次元視覚グラウンドを定式化するフレームワークであるViewSRDを提案する。
3次元視覚的グラウンドデータセットの実験により、ViewSRDは最先端の手法を大幅に上回っていることが示された。
- 参考スコア(独自算出の注目度): 34.39212457455039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D visual grounding aims to identify and localize objects in a 3D space based on textual descriptions. However, existing methods struggle with disentangling targets from anchors in complex multi-anchor queries and resolving inconsistencies in spatial descriptions caused by perspective variations. To tackle these challenges, we propose ViewSRD, a framework that formulates 3D visual grounding as a structured multi-view decomposition process. First, the Simple Relation Decoupling (SRD) module restructures complex multi-anchor queries into a set of targeted single-anchor statements, generating a structured set of perspective-aware descriptions that clarify positional relationships. These decomposed representations serve as the foundation for the Multi-view Textual-Scene Interaction (Multi-TSI) module, which integrates textual and scene features across multiple viewpoints using shared, Cross-modal Consistent View Tokens (CCVTs) to preserve spatial correlations. Finally, a Textual-Scene Reasoning module synthesizes multi-view predictions into a unified and robust 3D visual grounding. Experiments on 3D visual grounding datasets show that ViewSRD significantly outperforms state-of-the-art methods, particularly in complex queries requiring precise spatial differentiation. Code is available at https://github.com/visualjason/ViewSRD.
- Abstract(参考訳): 3Dビジュアルグラウンドティングは、テキスト記述に基づいて、オブジェクトを3D空間で特定し、ローカライズすることを目的としている。
しかし、既存の手法では、複雑なマルチアンカークエリのアンカーからターゲットをアンカーから切り離すことに苦労し、視点変動による空間的記述の不整合を解消する。
このような課題に対処するために,構造化多視点分解プロセスとして3次元視覚グラウンドを定式化するフレームワークであるViewSRDを提案する。
まず、単純なリレーショナルデカップリング(SRD)モジュールは、複雑なマルチアンカークエリをターゲットとする単一アンカーステートメントのセットに再構成し、位置関係を明確にするパースペクティブ対応記述の構造化セットを生成する。
これらの分解された表現は、多視点のテキスト・シーン・インタラクション(Multi-TSI)モジュールの基盤となる。
最後に、Textual-Scene Reasoningモジュールは、マルチビュー予測を統一的で堅牢な3D視覚グラウンドに合成する。
3Dビジュアルグラウンドティングデータセットの実験により、ViewSRDは最先端の手法、特に精密な空間微分を必要とする複雑なクエリにおいて著しく優れていた。
コードはhttps://github.com/visualjason/ViewSRDで入手できる。
関連論文リスト
- Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering [106.96097136553105]
3次元質問回答(3D QA)では、テキストによって記述された位置の3Dシーンを理解し、周囲の環境を判断し、その状況下での質問に答える必要がある。
既存の手法は通常、純粋な3次元点雲からのグローバルなシーン認識に依存しており、マルチビュー画像からのリッチな局所テクスチャの詳細の重要性を見落としている。
本稿では,DSPNet(Dual-vision Scene Perception Network)を提案する。
論文 参考訳(メタデータ) (2025-03-05T05:13:53Z) - CrossOver: 3D Scene Cross-Modal Alignment [78.3057713547313]
CrossOverは、クロスモーダルな3Dシーン理解のための新しいフレームワークである。
モダリティを整列させることにより、シーンの統一的でモダリティに依存しない埋め込み空間を学ぶ。
堅牢なシーン検索とオブジェクトのローカライゼーションをサポートする。
論文 参考訳(メタデータ) (2025-02-20T20:05:30Z) - SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - CVSformer: Cross-View Synthesis Transformer for Semantic Scene
Completion [0.0]
クロスビューオブジェクト関係を学習するための多視点特徴合成とクロスビュー変換からなるクロスビュー合成変換器(CVSformer)を提案する。
拡張された特徴を用いて、全てのボクセルの幾何学的占有度と意味ラベルを予測する。
我々はCVSformerを公開データセット上で評価し、CVSformerは最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-16T04:08:03Z) - MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文 参考訳(メタデータ) (2023-04-25T05:55:29Z) - ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文 参考訳(メタデータ) (2023-03-29T17:59:10Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D
Visual Grounding [15.617150859765024]
我々はTransformerを、置換不変な3次元点群データに対する自然な適合性に活用する。
本稿では,エンティティとリレーショナルを意識したマルチモーダルコンテキストを抽出するTransRefer3Dネットワークを提案する。
提案手法は既存手法を最大10.6%上回る性能を示した。
論文 参考訳(メタデータ) (2021-08-05T05:47:12Z) - Descriptor-Free Multi-View Region Matching for Instance-Wise 3D
Reconstruction [34.21773285521006]
エピポーラ幾何学に基づく多視点領域マッチング手法を提案する。
エピポーラ領域マッチングは、容易にインスタンスセグメンテーションに統合でき、インスタンスワイド3D再構成に有効であることを示す。
論文 参考訳(メタデータ) (2020-11-27T10:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。