論文の概要: 3DAlign-DAER: Dynamic Attention Policy and Efficient Retrieval Strategy for Fine-grained 3D-Text Alignment at Scale
- arxiv url: http://arxiv.org/abs/2511.13211v1
- Date: Mon, 17 Nov 2025 10:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.125667
- Title: 3DAlign-DAER: Dynamic Attention Policy and Efficient Retrieval Strategy for Fine-grained 3D-Text Alignment at Scale
- Title(参考訳): 3DAlign-DAER: 大規模3Dテキストアライメントのための動的アテンションポリシーと効率的な検索戦略
- Authors: Yijia Fan, Jusheng Zhang, Kaitong Cai, Jing Yang, Jian Wang, Keze Wang,
- Abstract要約: 3DAlign-DAERはテキストと3D幾何を動的アテンションポリシーと効率的な検索戦略によって整列するように設計されたフレームワークである。
テキスト3Dアライメントの研究を容易にし、3DAlign-DAERを訓練するために、2Mのテキスト3Dペアを備えた大規模データセットAlign3D-2Mを構築した。
- 参考スコア(独自算出の注目度): 13.561331612635044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements in 3D-text cross-modal alignment, existing state-of-the-art methods still struggle to align fine-grained textual semantics with detailed geometric structures, and their alignment performance degrades significantly when scaling to large-scale 3D databases. To overcome this limitation, we introduce 3DAlign-DAER, a unified framework designed to align text and 3D geometry via the proposed dynamic attention policy and the efficient retrieval strategy, capturing subtle correspondences for diverse cross-modal retrieval and classification tasks. Specifically, during the training, our proposed dynamic attention policy (DAP) employs the Hierarchical Attention Fusion (HAF) module to represent the alignment as learnable fine-grained token-to-point attentions. To optimize these attentions across different tasks and geometric hierarchies, our DAP further exploits the Monte Carlo tree search to dynamically calibrate HAF attention weights via a hybrid reward signal and further enhances the alignment between textual descriptions and local 3D geometry. During the inference, our 3DAlign-DAER introduces an Efficient Retrieval Strategy (ERS) to leverage efficient hierarchical searching in the large-scale embedding spaces, outperforming traditional methods (e.g., KNN) in accuracy and efficiency. Furthermore, to facilitate text-3D alignment research and train our 3DAlign-DAER, we construct Align3D-2M, a large-scale dataset featuring 2M text-3D pairs, to provide sufficient fine-grained cross-modal annotations. Extensive and comprehensive experiments demonstrate the superior performance of our 3DAlign-DAER on diverse benchmarks. We will release our codes, models, and datasets.
- Abstract(参考訳): 近年の3Dテキストのクロスモーダルアライメントの進歩にもかかわらず、既存の最先端の手法は、微細なテキストセマンティクスと詳細な幾何学的構造との整合に苦慮しており、大規模な3Dデータベースにスケールする際のアライメント性能は著しく低下している。
この制限を克服するため、3DAlign-DAERは動的アテンションポリシーと効率的な検索戦略を通じてテキストと3D幾何を整列し、多種多様なモーダル検索と分類タスクのための微妙な対応をキャプチャする統合フレームワークである。
具体的には、トレーニング中に提案したダイナミックアテンションポリシー(DAP)では、階層型アテンションフュージョン(HAF)モジュールを用いて、アライメントを学習可能なきめ細かいトークン・ツー・ポイントアテンションとして表現する。
DAPは、これらの注意を様々なタスクや幾何学的階層にわたって最適化するために、さらにモンテカルロ木探索を利用して、ハイブリッド報酬信号を介してHAFの注意重みを動的に調整し、テキスト記述と局所的な3次元幾何との整合性を高める。
3DAlign-DAERでは,大規模埋め込み空間における効率的な階層探索を実現するための効率的な検索戦略(ERS)を導入し,従来の手法(例えばKNN)の精度と効率を向上する。
さらに,テキスト3Dアライメント研究の促進と3DAlign-DAERのトレーニングのために,2Mテキスト3Dペアを含む大規模データセットAlign3D-2Mを構築し,十分な粒度のクロスモーダルアノテーションを提供する。
広範かつ包括的な実験は、多様なベンチマーク上での3DAlign-DAERの優れたパフォーマンスを示しています。
コード、モデル、データセットをリリースします。
関連論文リスト
- Boosting Multi-View Indoor 3D Object Detection via Adaptive 3D Volume Construction [10.569056109735735]
本研究では,適応型3次元ボリューム構造に基づく室内3次元物体検出フレームワークであるSGCDetを提案する。
各画像の適応領域に幾何学的・文脈的情報を統合するための幾何学的・文脈的アグリゲーションモジュールを導入する。
SGCDetは、ScanNet、ScanNet200、ARKitScenesデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-24T11:58:01Z) - Enhanced Cross-modal 3D Retrieval via Tri-modal Reconstruction [4.820576346277399]
クロスモーダルな3D検索は重要な課題であり、3Dとテキストのモダリティ間の双方向検索の実現を目指している。
マルチビュー画像と点雲を併用して3次元形状を共同で表現し,3次元アライメントを容易にすることを提案する。
本手法は, テキスト検索とテキスト検索の両方において, 従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-02T08:29:42Z) - Hierarchical Cross-Modal Alignment for Open-Vocabulary 3D Object Detection [45.68105299990119]
Open-vocabulary 3D object Detection (OV-3DOD) は、閉じた集合を超えて新しいオブジェクトをローカライズし分類することを目的としている。
我々は,OV-3DODの局所オブジェクトとグローバルシーン情報を同時に学習するための階層型フレームワークHCMAを提案する。
論文 参考訳(メタデータ) (2025-03-10T17:55:22Z) - Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces [52.237827968294766]
単モーダルテキストと3Dエンコーダの有意な訓練後特徴アライメントが,性能に限界をもたらすことを示す。
次に、対応する特徴空間の部分空間の抽出に焦点をあて、学習された表現を高次元の低次元部分空間に射影することにより、アライメントの質が著しく高くなることを発見する。
私たちの作品は、3Dユニモーダルとテキストの特徴空間のトレーニング後のアライメントのベースラインを確立するのに役立つ最初の作品です。
論文 参考訳(メタデータ) (2025-03-07T09:51:56Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation [122.47961178994456]
SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。
本稿では,TPL(Triplane Prior Learning)について紹介する。
我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。