論文の概要: Multi-View Hierarchical Graph Neural Network for Sketch-Based 3D Shape Retrieval
- arxiv url: http://arxiv.org/abs/2604.18019v1
- Date: Mon, 20 Apr 2026 09:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.792445
- Title: Multi-View Hierarchical Graph Neural Network for Sketch-Based 3D Shape Retrieval
- Title(参考訳): スケッチに基づく3次元形状検索のための多視点階層型グラフニューラルネットワーク
- Authors: Hang Cheng, Muyan He, Mingyu Fan, Chengfeng Xie, Xi Cheng, Long Zeng,
- Abstract要約: スケッチに基づく3次元形状検索は,手描きスケッチのカテゴリと整合した3次元形状の検索を目的としている。
本稿では,SBSRの新しいフレームワークであるMulti-View Hierarchical Graph Neural Network (MV-HGNN)を提案する。
カテゴリーレベルとゼロショット設定の両方で、MV-HGNNは最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 8.680040031590362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sketch-based 3D shape retrieval (SBSR) aims to retrieve 3D shapes that are consistent with the category of the input hand-drawn sketch. The core challenge of this task lies in two aspects: existing methods typically employ simplified aggregation strategies for independently encoded 3D multi-view features, which ignore the geometric relationships between views and multi-level details, resulting in weak 3D representation. Simultaneously, traditional SBSR methods are constrained by visible category limitations, leading to poor performance in zero-shot scenarios. To address these challenges, we propose Multi-View Hierarchical Graph Neural Network (MV-HGNN), a novel framework for SBSR. Specifically, we construct a view-level graph and capture adjacent geometric dependencies and cross-view message passing via local graph convolution and global attention. A view selector is further introduced to perform hierarchical graph coarsening, enabling a progressively larger receptive field for graph convolution and mitigating the interference of redundant views, which leads to more discriminate discriminative hierarchical 3D representation. To enable category agnostic alignment and mitigate overfitting to seen classes, we leverage CLIP text embeddings as semantic prototypes and project both sketch and 3D features into a shared semantic space. We use a two-stage training strategy for category-level retrieval and a one-stage strategy for zero-shot retrieval under the same model architecture. Under both category-level and zero-shot settings, extensive experiments on two public benchmarks demonstrate that MV-HGNN outperforms state-of-the-art methods.
- Abstract(参考訳): スケッチベースの3次元形状検索(SBSR)は,手描きスケッチのカテゴリと整合した3次元形状の検索を目的としている。
既存のメソッドは、独立に符号化された3Dの多面的特徴に対して単純化されたアグリゲーション戦略を使用し、ビューと多面的詳細の間の幾何学的関係を無視し、結果として弱い3D表現をもたらす。
同時に、従来のSBSR手法は可視圏制限によって制約され、ゼロショットシナリオでは性能が低下する。
これらの課題に対処するため、SBSRの新しいフレームワークであるMulti-View Hierarchical Graph Neural Network (MV-HGNN)を提案する。
具体的には、ビューレベルグラフを構築し、隣接する幾何学的依存関係と、局所グラフ畳み込みとグローバルアテンションによるクロスビューメッセージパッシングをキャプチャする。
さらにビューセレクタを導入して階層グラフの粗大化を実現し、グラフの畳み込みと冗長なビューの干渉を緩和し、より差別的な階層的な3D表現を実現する。
カテゴリ非依存のアライメントを可能にするため,CLIPテキストの埋め込みをセマンティックプロトタイプとして利用し,スケッチと3D機能を共有セマンティック空間に投影する。
カテゴリーレベルの検索には2段階の学習戦略、同じモデルアーキテクチャではゼロショット検索には1段階の学習戦略を用いる。
カテゴリレベルの設定とゼロショットの設定の両方において、MV-HGNNが最先端の手法より優れていることを示す2つの公開ベンチマークで広範な実験が行われた。
関連論文リスト
- Cross-Attentive Multiview Fusion of Vision-Language Embeddings [28.984855441235776]
複数の視点から視覚言語記述子を横断的に横断する新しいマルチビュートランスフォーマーアーキテクチャを提案する。
この融合のための自己超越信号としてマルチビュー整合性を利用する。
クロス・アテンティブ・マルチビュー・フュージョンは、ナイーブ平均化やシングルビュー記述子選択よりも一貫して優れています。
論文 参考訳(メタデータ) (2026-04-14T10:25:32Z) - Pre-training Graph Neural Networks on 2D and 3D Molecular Structures by using Multi-View Conditional Information Bottleneck [8.42839603549236]
本稿では,2次元および3次元分子構造上のグラフニューラルネットワークの事前学習のためのマルチビューコンディショナル・インフォメーション・ボトルネック・フレームワークを提案する。
我々の考えは、MVIBの原則の下で、各ビューから無関係な機能を最小化しながら、共有情報を見つけることである。
ビュー間のセマンティックな一貫性と構造的整合性を高めるために,2つのビュー間のアンカーとして機能的グループやego-networksといった重要なサブストラクチャを利用する。
論文 参考訳(メタデータ) (2025-11-23T11:18:35Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - Fine-Grained 3D Shape Classification with Hierarchical Part-View
Attentions [70.0171362989609]
本稿では,FG3D-Netと呼ばれる新しい3次元形状分類手法を提案する。
詳細な3次元形状データセットに基づく結果から,本手法が他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-26T06:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。