Fugu-MT 論文翻訳(概要): Riemann-based Multi-scale Attention Reasoning Network for Text-3D Retrieval

論文の概要: Riemann-based Multi-scale Attention Reasoning Network for Text-3D Retrieval

arxiv url: http://arxiv.org/abs/2408.13712v1
Date: Sun, 25 Aug 2024 03:21:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 18:19:53.032026
Title: Riemann-based Multi-scale Attention Reasoning Network for Text-3D Retrieval
Title（参考訳）: テキスト3次元検索のためのリーマン型マルチスケールアテンション推論ネットワーク
Authors: Wenrui Li, Wei Han, Yandu Chen, Yeyu Chai, Yidan Lu, Xingtao Wang, Xiaopeng Fan,
Abstract要約: テキスト3D検索のための新しいMultiscale Attention Reasoning Network (RMARN)を提案する。 RMARNは、テキストポイントクラウドサンプル間の距離をよりよく表現するために、多様体パラメータを学習する。テキスト3Dデータのペア化の難しさに対処するため,大規模テキスト3D検索データセットT3DR-HITを開発した。
参考スコア（独自算出の注目度）: 14.775984198185556
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Due to the challenges in acquiring paired Text-3D data and the inherent irregularity of 3D data structures, combined representation learning of 3D point clouds and text remains unexplored. In this paper, we propose a novel Riemann-based Multi-scale Attention Reasoning Network (RMARN) for text-3D retrieval. Specifically, the extracted text and point cloud features are refined by their respective Adaptive Feature Refiner (AFR). Furthermore, we introduce the innovative Riemann Local Similarity (RLS) module and the Global Pooling Similarity (GPS) module. However, as 3D point cloud data and text data often possess complex geometric structures in high-dimensional space, the proposed RLS employs a novel Riemann Attention Mechanism to reflect the intrinsic geometric relationships of the data. Without explicitly defining the manifold, RMARN learns the manifold parameters to better represent the distances between text-point cloud samples. To address the challenges of lacking paired text-3D data, we have created the large-scale Text-3D Retrieval dataset T3DR-HIT, which comprises over 3,380 pairs of text and point cloud data. T3DR-HIT contains coarse-grained indoor 3D scenes and fine-grained Chinese artifact scenes, consisting of 1,380 and over 2,000 text-3D pairs, respectively. Experiments on our custom datasets demonstrate the superior performance of the proposed method. Our code and proposed datasets are available at \url{https://github.com/liwrui/RMARN}.
Abstract（参考訳）: ペア化されたText-3Dデータを取得する上での課題と、3Dデータ構造に固有の不規則性のため、3Dポイントクラウドとテキストの複合表現学習は未探索のままである。本稿では,テキスト3D検索のための新しいRiemann-based Multi-scale Attention Reasoning Network (RMARN)を提案する。具体的には、抽出したテキストとポイントクラウドの機能は、それぞれのAdaptive Feature Refiner (AFR)によって洗練される。さらに,革新的なRiemann Local similarity (RLS)モジュールとGlobal Pooling similarity (GPS)モジュールを紹介する。しかし、3Dポイントクラウドデータとテキストデータはしばしば高次元空間における複雑な幾何学構造を持つため、提案されたRSSは、データ固有の幾何学的関係を反映する新しいリーマン注意機構を用いる。多様体を明示的に定義せずに、RMARNは、テキストポイントクラウドサンプル間の距離をよりよく表現するために、多様体パラメータを学習する。ペアテキスト3Dデータの欠如に対処するため,3,380組以上のテキストとポイントクラウドデータからなる大規模テキスト3D検索データセットT3DR-HITを開発した。 T3DR-HITには、粗粒の屋内3Dシーンと、粒度の細かい中国のアーティファクトシーンがあり、それぞれ1,380点と2000点以上のテキスト3Dペアで構成されている。カスタムデータセットの実験では,提案手法の優れた性能を示す。我々のコードと提案されたデータセットは \url{https://github.com/liwrui/RMARN} で入手できる。

関連論文リスト

ReferSplat: Referring Segmentation in 3D Gaussian Splatting [60.73702075842278]
3次元ガウス散乱(R3DGS)を参照 Taskは、自然言語の記述に基づいて、ターゲットオブジェクトを3Dガウスシーンにセグメントすることを目的としている。これらの課題に対処するため,自然言語表現を用いて3次元ガウス点を明示的にモデル化するフレームワークReferSplatを提案する。
論文参考訳（メタデータ） (2025-08-11T17:59:30Z)
SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文参考訳（メタデータ） (2025-07-31T17:56:55Z)
Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces [52.237827968294766]
単モーダルテキストと3Dエンコーダの有意な訓練後特徴アライメントが,性能に限界をもたらすことを示す。次に、対応する特徴空間の部分空間の抽出に焦点をあて、学習された表現を高次元の低次元部分空間に射影することにより、アライメントの質が著しく高くなることを発見する。
論文参考訳（メタデータ） (2025-03-07T09:51:56Z)
SCA3D: Enhancing Cross-modal 3D Retrieval via 3D Shape and Caption Paired Data Augmentation [21.070154402838906]
クロスモーダルな3D検索は,テキスト記述と3次元形状の相互マッチングを実現することを目的としている。 3Dデータの不足と高価さは、既存のクロスモーダルな3D検索手法の性能を制約する。クロスモーダル3D検索のための新しい3D形状とキャプションオンラインデータ拡張手法であるSCA3Dを紹介する。
論文参考訳（メタデータ） (2025-02-26T13:36:40Z)
Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation [92.17176311351469]
我々は、新しいデータ生成パイプラインとトレーニングフレームワークを導入することで、オープンな3Dシーン理解に取り組む。本手法は, 正確な3次元領域分割, 包括的テキスト記述, 十分なデータセットスケールの3つの重要な要件に対処する。このパイプラインを複数の3Dシーンデータセットに適用すると、Mosaic3D-5.6Mが生成される。
論文参考訳（メタデータ） (2025-02-04T18:18:50Z)
More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding [22.753452376062565]
GreenPLMは、最小限の3Dポイントクラウドとテキストデータペアで堅牢な3Dオブジェクト理解を可能にすることを目的としている。画像とテキストのアライメントにCLIPにインスパイアされた我々は、トレーニング済みのクラウドテキストエンコーダを使用して、3Dポイントクラウド空間をテキスト空間にマッピングする。 3Dオブジェクトのフリーテキスト記述を6M生成し、3段階のトレーニング戦略を設計し、LLMが様々なモダリティ間の本質的な接続をよりよく探索できるようにする。
論文参考訳（メタデータ） (2024-08-28T17:38:44Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文参考訳（メタデータ） (2024-04-19T17:58:04Z)
ParaPoint: Learning Global Free-Boundary Surface Parameterization of 3D Point Clouds [52.03819676074455]
ParaPointは、グローバルな自由境界面パラメータ化を実現するための教師なしのニューラルネットワークパイプラインである。この研究は、グローバルマッピングと自由境界の両方を追求するニューラルポイントクラウドパラメータ化を調査する最初の試みである。
論文参考訳（メタデータ） (2024-03-15T14:35:05Z)
Mono3DVG: 3D Visual Grounding in Monocular Images [12.191320182791483]
外観情報と幾何情報の両方を用いた言語記述を用いた単眼RGB画像における3次元視覚的グラウンドディングの新たなタスクを提案する。大規模データセット Mono3DRefer を構築し,それに対応する幾何学的テキスト記述を備えた3Dオブジェクトを対象とする。テキスト埋め込みにおける外観情報と幾何学情報の両方を利用するエンドツーエンドのトランスフォーマーネットワークであるMono3DVG-TRを提案する。
論文参考訳（メタデータ） (2023-12-13T09:49:59Z)
VoxelKP: A Voxel-based Network Architecture for Human Keypoint Estimation in LiDAR Data [53.638818890966036]
textitVoxelKPは、LiDARデータにおける人間のキーポイント推定に適した、完全にスパースなネットワークアーキテクチャである。本研究では,人間の各インスタンス内のキーポイント間の空間的相関を学習するために,スパースボックスアテンションを導入する。鳥の視線を符号化する2次元格子に3次元ボクセルを投影する際に, 絶対的な3次元座標を利用するために空間符号化を組み込んだ。
論文参考訳（メタデータ） (2023-12-11T23:50:14Z)
DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文参考訳（メタデータ） (2023-11-18T21:58:28Z)
CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文参考訳（メタデータ） (2022-10-09T13:38:48Z)
Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-12T06:25:11Z)
H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo [4.263987603222371]
本稿では,3つの方法でユニークな3次元データセットを提案する。ヘシグハイム(ドイツ語: Hessigheim, H3D)は、ドイツの都市。片手で3次元データ分析の分野での研究を促進するとともに、新しいアプローチの評価とランク付けを目的としている。
論文参考訳（メタデータ） (2021-02-10T09:33:48Z)
Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文参考訳（メタデータ） (2020-11-29T12:56:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。