論文の概要: Hyperbolic Hierarchical Alignment Reasoning Network for Text-3D Retrieval
- arxiv url: http://arxiv.org/abs/2511.11045v1
- Date: Fri, 14 Nov 2025 07:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.487777
- Title: Hyperbolic Hierarchical Alignment Reasoning Network for Text-3D Retrieval
- Title(参考訳): テキスト3次元検索のための双曲的階層的アライメント推論ネットワーク
- Authors: Wenrui Li, Yidan Lu, Yeyu Chai, Rui Zhao, Hengyu Man, Xiaopeng Fan,
- Abstract要約: テキスト3D検索のためのハイパーボリック階層アライメント推論ネットワーク (H$2$ARN) を導入する。
H$2$ARNはテキストと3Dデータをローレンツモデル双曲空間に埋め込む。
また、拡張されたT3DR-HIT v2ベンチマークもリリースしました。
- 参考スコア(独自算出の注目度): 38.14508593270809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the daily influx of 3D data on the internet, text-3D retrieval has gained increasing attention. However, current methods face two major challenges: Hierarchy Representation Collapse (HRC) and Redundancy-Induced Saliency Dilution (RISD). HRC compresses abstract-to-specific and whole-to-part hierarchies in Euclidean embeddings, while RISD averages noisy fragments, obscuring critical semantic cues and diminishing the model's ability to distinguish hard negatives. To address these challenges, we introduce the Hyperbolic Hierarchical Alignment Reasoning Network (H$^{2}$ARN) for text-3D retrieval. H$^{2}$ARN embeds both text and 3D data in a Lorentz-model hyperbolic space, where exponential volume growth inherently preserves hierarchical distances. A hierarchical ordering loss constructs a shrinking entailment cone around each text vector, ensuring that the matched 3D instance falls within the cone, while an instance-level contrastive loss jointly enforces separation from non-matching samples. To tackle RISD, we propose a contribution-aware hyperbolic aggregation module that leverages Lorentzian distance to assess the relevance of each local feature and applies contribution-weighted aggregation guided by hyperbolic geometry, enhancing discriminative regions while suppressing redundancy without additional supervision. We also release the expanded T3DR-HIT v2 benchmark, which contains 8,935 text-to-3D pairs, 2.6 times the original size, covering both fine-grained cultural artefacts and complex indoor scenes. Our codes are available at https://github.com/liwrui/H2ARN.
- Abstract(参考訳): インターネット上の3Dデータの日々の流入により,テキスト3D検索が注目されている。
しかし、現在の手法では、階層表現照合(HRC)と冗長性誘導分解(RISD)の2つの大きな課題に直面している。
HRCはユークリッドの埋め込みにおいて抽象的・特殊的・全体的階層を圧縮し、RISDはノイズの多い断片を平均化し、重要な意味的手がかりを隠蔽し、強みを識別するモデルの能力を低下させる。
これらの課題に対処するために,テキスト3D検索のためのハイパーボリック階層アライメント推論ネットワーク (H$^{2}$ARN) を導入する。
H$^{2}$ARNはテキストと3Dデータをローレンツモデル双曲空間に埋め込む。
階層的順序付け損失は、各テキストベクトルの周囲に縮小されたエンテーメントコーンを構成し、一致した3Dインスタンスがコーン内に落下することを保証し、一方、インスタンスレベルのコントラスト損失は、非マッチングサンプルからの分離を共同で強制する。
RISDに対処するため,各局所特徴の関連性を評価するためにローレンツ距離を利用した寄与対応ハイパーボリックアグリゲーションモジュールを提案する。
また、拡張されたT3DR-HIT v2ベンチマークもリリースし、8,935対のテキスト対3D、オリジナルサイズの2.6倍、きめ細かい文化的アーティファクトと複雑な屋内シーンの両方をカバーしています。
私たちのコードはhttps://github.com/liwrui/H2ARN.comで公開されています。
関連論文リスト
- Mono3DVG-EnSD: Enhanced Spatial-aware and Dimension-decoupled Text Encoding for Monocular 3D Visual Grounding [42.41930714202838]
CLIP-Guided Lexical Certainty Adapter (CLIP-LCA) と Dimension-Decoupled Module (D2M) の2つの主要なコンポーネントを統合する新しいフレームワーク Mono3DVG-EnSD を提案する。
特に,Far(Acc@0.5)の難易度を+13.54%向上させる手法を提案する。
論文 参考訳(メタデータ) (2025-11-10T10:02:30Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - Where, Not What: Compelling Video LLMs to Learn Geometric Causality for 3D-Grounding [0.8883733362171032]
この問題に対処するために,What-Where Representation Re-Forming (W2R2) と呼ばれる新しいトレーニングフレームワークを提案する。
提案手法は,2次元特徴を「何」識別のための意味的ビーコン,3次元特徴を「Where」ローカライゼーションのための空間的アンカーとして指定することにより,モデルの内部空間を根本的に改善する。
ScanReferとScanQAで行った実験では、W2R2の有効性が示され、ローカライゼーションの精度とロバスト性が大きく向上した。
論文 参考訳(メタデータ) (2025-10-19T22:40:18Z) - Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces [52.237827968294766]
単モーダルテキストと3Dエンコーダの有意な訓練後特徴アライメントが,性能に限界をもたらすことを示す。
次に、対応する特徴空間の部分空間の抽出に焦点をあて、学習された表現を高次元の低次元部分空間に射影することにより、アライメントの質が著しく高くなることを発見する。
私たちの作品は、3Dユニモーダルとテキストの特徴空間のトレーニング後のアライメントのベースラインを確立するのに役立つ最初の作品です。
論文 参考訳(メタデータ) (2025-03-07T09:51:56Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Riemann-based Multi-scale Attention Reasoning Network for Text-3D Retrieval [14.775984198185556]
テキスト3D検索のための新しいMultiscale Attention Reasoning Network (RMARN)を提案する。
RMARNは、テキストポイントクラウドサンプル間の距離をよりよく表現するために、多様体パラメータを学習する。
テキスト3Dデータのペア化の難しさに対処するため,大規模テキスト3D検索データセットT3DR-HITを開発した。
論文 参考訳(メタデータ) (2024-08-25T03:21:48Z) - Learning Hyperbolic Representations for Unsupervised 3D Segmentation [3.516233423854171]
本稿では,双曲型潜在空間を持つ変分オートエンコーダ(VAE)とジャイロプレーン畳み込み層を用いて,教師なしセグメンテーションのための3次元パッチの効果的表現を提案する。
階層型トイデータセット,BraTS全腫瘍データセット,低温電子顕微鏡データを用いた非教師なし3次元セグメンテーションにおけるハイパーボリック表現の有効性を実証した。
論文 参考訳(メタデータ) (2020-12-03T02:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。