論文の概要: GraphFusion3D: Dynamic Graph Attention Convolution with Adaptive Cross-Modal Transformer for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2512.02991v1
- Date: Tue, 02 Dec 2025 18:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.998668
- Title: GraphFusion3D: Dynamic Graph Attention Convolution with Adaptive Cross-Modal Transformer for 3D Object Detection
- Title(参考訳): GraphFusion3D:3Dオブジェクト検出のための適応型クロスモーダルトランスを用いた動的グラフ注意変換
- Authors: Md Sohag Mia, Md Nahid Hasan, Tawhid Ahmed, Muhammad Abdullah Adnan,
- Abstract要約: マルチモーダル融合と高度な特徴学習を組み合わせた統合フレームワークGraphFusion3Dを提案する。
本稿では,画像特徴を点表現に適応的に統合し,幾何学的情報と意味的情報の両方を充実させる適応型クロスモーダル変換器(ACMT)を提案する。
提案手法では,局所的な幾何学的構造とグローバルな意味的コンテキストを同時に捉えるために近傍関係をモデル化する新しいメカニズムであるグラフ推論モジュール(GRM)を導入する。
- 参考スコア(独自算出の注目度): 1.1106255381859969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress in 3D object detection, point clouds remain challenging due to sparse data, incomplete structures, and limited semantic information. Capturing contextual relationships between distant objects presents additional difficulties. To address these challenges, we propose GraphFusion3D, a unified framework combining multi-modal fusion with advanced feature learning. Our approach introduces the Adaptive Cross-Modal Transformer (ACMT), which adaptively integrates image features into point representations to enrich both geometric and semantic information. For proposal refinement, we introduce the Graph Reasoning Module (GRM), a novel mechanism that models neighborhood relationships to simultaneously capture local geometric structures and global semantic context. The module employs multi-scale graph attention to dynamically weight both spatial proximity and feature similarity between proposals. We further employ a cascade decoder that progressively refines detections through multi-stage predictions. Extensive experiments on SUN RGB-D (70.6\% AP$_{25}$ and 51.2\% AP$_{50}$) and ScanNetV2 (75.1\% AP$_{25}$ and 60.8\% AP$_{50}$) demonstrate a substantial performance improvement over existing approaches.
- Abstract(参考訳): 3Dオブジェクト検出の大幅な進歩にもかかわらず、点雲はスパースデータ、不完全構造、限定的な意味情報のために困難なままである。
遠方の物体間の文脈的関係を捉えることは、さらなる困難を生じさせる。
これらの課題に対処するために,マルチモーダル融合と高度な特徴学習を組み合わせた統合フレームワークであるGraphFusion3Dを提案する。
本稿では,画像特徴を点表現に適応的に統合し,幾何学的情報と意味的情報の両方を充実させる適応型クロスモーダル変換器(ACMT)を提案する。
提案手法では,局所的な幾何学的構造とグローバルな意味的コンテキストを同時に捉えるために近傍関係をモデル化する新しいメカニズムであるグラフ推論モジュール(GRM)を導入する。
このモジュールは、空間的近接性と提案間の特徴的類似性の両方を動的に重み付けするために、マルチスケールグラフアテンションを利用する。
さらに、多段階予測による検出を段階的に洗練するカスケードデコーダを用いる。
SUN RGB-D (70.6\% AP$_{25}$と51.2\% AP$_{50}$) と ScanNetV2 (75.1\% AP$_{25}$と60.8\% AP$_{50}$) に関する大規模な実験は、既存のアプローチよりも大幅に改善されたことを示している。
関連論文リスト
- Object-Centric Representation Learning for Enhanced 3D Scene Graph Prediction [3.7471945679132594]
3Dセマンティックシーングラフ予測は、3Dシーンにおけるオブジェクトとその意味的関係を検出することを目的としている。
これまでの研究はデータセットの制限に対処し、Open-Vocabulary設定など、さまざまなアプローチを模索してきた。
本研究では,オブジェクトの特徴の質が全体のシーングラフの精度を決定する上で重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2025-10-06T11:33:09Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Relation Transformer Network [25.141472361426818]
本稿では,シーングラフ生成と関係予測のためのトランスフォーメーションを提案する。
我々はトランスのエンコーダ・デコーダアーキテクチャを利用して,ノードとエッジのリッチな機能埋め込みを行う。
我々の関係予測モジュールは学習ノードとエッジ埋め込みから有向関係を分類する。
論文 参考訳(メタデータ) (2020-04-13T20:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。