論文の概要: D3FNet: A Differential Attention Fusion Network for Fine-Grained Road Structure Extraction in Remote Perception Systems
- arxiv url: http://arxiv.org/abs/2508.15537v1
- Date: Thu, 21 Aug 2025 13:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.338162
- Title: D3FNet: A Differential Attention Fusion Network for Fine-Grained Road Structure Extraction in Remote Perception Systems
- Title(参考訳): D3FNet:遠隔知覚システムにおける微粒道路構造抽出のための差分注意融合ネットワーク
- Authors: Chang Liu, Yang Xu, Tamas Sziranyi,
- Abstract要約: D3FNet(D3FNet)は、リモート認識システムにおける微粒な道路構造セグメンテーションのために設計されたD3FNet(Dual-Stream Differential Attention Fusion Network)である。
DADEモジュールは、ボトルネック時のバックグラウンドノイズを抑制しながら、微妙な道路特性を向上する。
DDFMは、空間的精度と意味的文脈のバランスをとるために、オリジナルとアテンションを変調した特徴を統合している。
- 参考スコア(独自算出の注目度): 5.350820088672045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting narrow roads from high-resolution remote sensing imagery remains a significant challenge due to their limited width, fragmented topology, and frequent occlusions. To address these issues, we propose D3FNet, a Dilated Dual-Stream Differential Attention Fusion Network designed for fine-grained road structure segmentation in remote perception systems. Built upon the encoder-decoder backbone of D-LinkNet, D3FNet introduces three key innovations:(1) a Differential Attention Dilation Extraction (DADE) module that enhances subtle road features while suppressing background noise at the bottleneck; (2) a Dual-stream Decoding Fusion Mechanism (DDFM) that integrates original and attention-modulated features to balance spatial precision with semantic context; and (3) a multi-scale dilation strategy (rates 1, 3, 5, 9) that mitigates gridding artifacts and improves continuity in narrow road prediction. Unlike conventional models that overfit to generic road widths, D3FNet specifically targets fine-grained, occluded, and low-contrast road segments. Extensive experiments on the DeepGlobe and CHN6-CUG benchmarks show that D3FNet achieves superior IoU and recall on challenging road regions, outperforming state-of-the-art baselines. Ablation studies further verify the complementary synergy of attention-guided encoding and dual-path decoding. These results confirm D3FNet as a robust solution for fine-grained narrow road extraction in complex remote and cooperative perception scenarios.
- Abstract(参考訳): 高解像度のリモートセンシング画像から狭い道路を抽出することは、その幅の制限、断片化されたトポロジ、そして頻繁な閉塞のために重要な課題である。
これらの問題に対処するために,D3FNetを提案する。D3FNet,Dilated Dual-Stream Differential Attention Fusion Network。
D-LinkNetのエンコーダ・デコーダのバックボーン上に構築されたD3FNetでは,(1)背景雑音を抑えながら微妙な路面特徴を向上するDADEモジュール,(2)空間的精度と意味的コンテキストのバランスをとるために原特徴と注意を変調した特徴を統合するDDFM(Dual-stream Decoding Fusion Mechanism),(3)格子状アーティファクトを緩和し,狭い路面予測における連続性を改善するマルチスケール拡張戦略(rates 1, 3, 5, 9)を導入している。
一般的な道路幅に過度に適合する従来のモデルとは異なり、D3FNetは特に細粒度、閉塞、低コントラストの道路セグメントをターゲットにしている。
DeepGlobeとCHN6-CUGベンチマークの大規模な実験は、D3FNetが優れたIoUを達成し、挑戦的な道路領域をリコールし、最先端のベースラインを上回っていることを示している。
アブレーション研究は、注意誘導符号化とデュアルパス復号の相補的な相乗効果をさらに検証する。
これらの結果から,D3FNetは複雑な遠隔・協調的な認識シナリオにおいて,細粒度の狭い道路抽出のための堅牢な解であることを確認した。
関連論文リスト
- CMF-IoU: Multi-Stage Cross-Modal Fusion 3D Object Detection with IoU Joint Prediction [29.7092783661859]
カメラとLiDARセンサーに基づくマルチモーダル手法は、3D検出の分野で大きな注目を集めている。
CMF-IOUと呼ばれる多段階の相互融合3D検出フレームワークを導入し,3次元空間情報と2次元意味情報を整合させることの課題に対処する。
論文 参考訳(メタデータ) (2025-08-18T13:32:07Z) - DualDiff: Dual-branch Diffusion Model for Autonomous Driving with Semantic Fusion [9.225796678303487]
マルチビュー駆動シーン生成のための2分岐条件拡散モデルであるDualDiffを提案する。
Occupancy Ray Sampling (ORS) という意味豊かな3次元表現を数値駆動シーン表現とともに導入する。
モーダル間の情報統合を改善するために,モーダル間の特徴の整合・融合を行うセマンティック・フュージョン・アテンション(SFA)機構を提案する。
論文 参考訳(メタデータ) (2025-05-03T16:20:01Z) - DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance [5.113012982922924]
本稿では,複数のビューやビデオシーケンスをまたいだ運転シーン生成を支援する条件拡散モデルであるDualDiffを提案する。
微粒な前景オブジェクトの合成を改善するために,FGM (Foreground-Aware Mask) denoising loss関数を提案する。
また,関連する情報を動的に優先順位付けし,ノイズを抑えるために,意味融合注意(Semantic Fusion Attention,SFA)機構を開発した。
論文 参考訳(メタデータ) (2025-03-05T17:31:45Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - DDU-Net: Dual-Decoder-U-Net for Road Extraction Using High-Resolution
Remote Sensing Images [19.07341794770722]
本稿では,Dual-Decoder-U-Net(DDU-Net)と呼ばれる深層ニューラルネットワークモデルを提案する。
提案したモデルは、最先端のDenseUNet、DeepLabv3+、D-LinkNetの6.5%、MIoUの平均インターセクションでは3.3%、F1スコアでは4%、4.8%、それぞれ2.1%を上回っている。
論文 参考訳(メタデータ) (2022-01-18T05:27:49Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - Road Network Guided Fine-Grained Urban Traffic Flow Inference [108.64631590347352]
粗いトラフィックからのきめ細かなトラフィックフローの正確な推測は、新たな重要な問題である。
本稿では,道路ネットワークの知識を活かした新しい道路対応交通流磁化器(RATFM)を提案する。
提案手法は,高品質なトラフィックフローマップを作成できる。
論文 参考訳(メタデータ) (2021-09-29T07:51:49Z) - DiResNet: Direction-aware Residual Network for Road Extraction in VHR
Remote Sensing Images [12.081877372552606]
主に3つのコントリビューションを含む方向対応残差ネットワーク(DiResNet)を提案する。
提案手法は総合精度とF1スコアの両方に利点がある。
論文 参考訳(メタデータ) (2020-05-14T19:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。