Fugu-MT 論文翻訳(概要): MGDFIS: Multi-scale Global-detail Feature Integration Strategy for Small Object Detection

論文の概要: MGDFIS: Multi-scale Global-detail Feature Integration Strategy for Small Object Detection

arxiv url: http://arxiv.org/abs/2506.12697v1
Date: Sun, 15 Jun 2025 02:54:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:46.703498
Title: MGDFIS: Multi-scale Global-detail Feature Integration Strategy for Small Object Detection
Title（参考訳）: MGDFIS:小型物体検出のためのマルチスケールグローバル詳細特徴統合戦略
Authors: Yuxiang Wang, Xuecheng Bai, Boyu Hu, Chuanzhi Xu, Haodong Chen, Vera Chung, Tingxue Li,
Abstract要約: UAV画像の小さな物体検出は、探索・救助、交通監視、環境監視といった用途に不可欠である。既存のマルチスケール融合法は、計算負荷を増し、詳細をぼかすのに役立つ。本稿では,グローバルコンテキストと局所的な詳細を密結合して検出性能を向上させる統合融合フレームワークを提案する。
参考スコア（独自算出の注目度）: 10.135137525886098
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Small object detection in UAV imagery is crucial for applications such as search-and-rescue, traffic monitoring, and environmental surveillance, but it is hampered by tiny object size, low signal-to-noise ratios, and limited feature extraction. Existing multi-scale fusion methods help, but add computational burden and blur fine details, making small object detection in cluttered scenes difficult. To overcome these challenges, we propose the Multi-scale Global-detail Feature Integration Strategy (MGDFIS), a unified fusion framework that tightly couples global context with local detail to boost detection performance while maintaining efficiency. MGDFIS comprises three synergistic modules: the FusionLock-TSS Attention Module, which marries token-statistics self-attention with DynamicTanh normalization to highlight spectral and spatial cues at minimal cost; the Global-detail Integration Module, which fuses multi-scale context via directional convolution and parallel attention while preserving subtle shape and texture variations; and the Dynamic Pixel Attention Module, which generates pixel-wise weighting maps to rebalance uneven foreground and background distributions and sharpen responses to true object regions. Extensive experiments on the VisDrone benchmark demonstrate that MGDFIS consistently outperforms state-of-the-art methods across diverse backbone architectures and detection frameworks, achieving superior precision and recall with low inference time. By striking an optimal balance between accuracy and resource usage, MGDFIS provides a practical solution for small-object detection on resource-constrained UAV platforms.
Abstract（参考訳）: UAV画像における小さな物体検出は、探索・救助、交通監視、環境監視といった用途には不可欠であるが、小さな物体の大きさ、低信号-雑音比、限られた特徴抽出によって妨げられる。既存のマルチスケール融合法は計算負荷を増し、細部をぼやかすのに役立つため、散らばったシーンでの小さな物体検出は困難である。これらの課題を克服するために,グローバルコンテキストを局所的な詳細と密に結合し,効率を保ちながら検出性能を向上する統合統合統合フレームワークMGDFISを提案する。 MGDFISは3つの相乗的モジュールで構成されている。FusionLock-TSS Attention Moduleはトークン統計をDynamicTanh正規化にマージし、スペクトルと空間のキューを最小のコストで強調する。 VisDroneベンチマークの大規模な実験により、MGDFISは様々なバックボーンアーキテクチャや検出フレームワークで常に最先端の手法より優れており、精度が良く、推論時間も低いことが示されている。 MGDFISは、精度と資源使用量の最適バランスを達成することにより、資源制約されたUAVプラットフォーム上での小さな物体検出の実用的なソリューションを提供する。

関連論文リスト

Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling [8.24377869183113]
複雑な背景下での小さなオブジェクト検出は、深刻な特徴劣化、弱いセマンティック表現、不正確なローカライゼーションのために難しい課題である。既存の検出フレームワークは主に汎用オブジェクト用に設計されている。小型オブジェクト検出に適した多層機能拡張とグローバルリレーショナルモデリングフレームワークを提案する。
論文参考訳（メタデータ） (2026-03-04T06:57:46Z)
A lightweight detector for real-time detection of remote sensing images [0.0]
DMG-YOLOは、リモートセンシング画像の小さな物体検出に適した軽量リアルタイム検出器である。バックボーンにデュアルブランチ特徴抽出(DFE)モジュールを導入し,特徴マップを2つの並列ブランチに分割する。首にGlobal and Local Aggregate Feature Pyramid Network (GLAFPN)を導入し,小物体検出をさらに促進する。
論文参考訳（メタデータ） (2025-11-21T11:11:04Z)
FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection [18.023418423273082]
本研究では,FMC-DETRを提案する。FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR,FMC-DETR。まず、大域的低周波文脈知覚を高めるために、カスケードウェーブレット変換を適用したWavelet Kolmogorov-Arnold Transformer (WeKat) のバックボーンを導入する。次に、軽量なクロスステージ部分核融合(CPF)モジュールは冗長性を低減し、マルチスケールの機能相互作用を改善する。最後に,Multi-Domain Feature Coordination (MDFC)モジュールについて述べる。
論文参考訳（メタデータ） (2025-09-27T02:28:22Z)
DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。 MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文参考訳（メタデータ） (2025-09-15T10:59:57Z)
GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文参考訳（メタデータ） (2025-08-14T11:31:43Z)
LGM-Pose: A Lightweight Global Modeling Network for Real-time Human Pose Estimation [9.000760165185532]
これらの課題に対処するために,シングルブランチ軽量グローバルモデリングネットワーク (LGM-Pose) が提案されている。このネットワークでは、軽量なMobileViMブロックが、LARM(Lightweight Attentional Representation Module)として提案されている。
論文参考訳（メタデータ） (2025-06-05T02:29:04Z)
AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
Learning to Borrow Features for Improved Detection of Small Objects in Single-Shot Detectors [0.0]
そこで本研究では,クラス内のより大規模で意味的にリッチなインスタンスから,小さなオブジェクト表現を識別的特徴の「バラバラ化」を可能にする新しいフレームワークを提案する。本手法は, 複雑な視覚環境下でのロバストな物体検出に有望な方向を提供するため, ベースライン法よりも小さな物体検出精度を著しく向上させる。
論文参考訳（メタデータ） (2025-04-30T01:18:33Z)
MSCA-Net:Multi-Scale Context Aggregation Network for Infrared Small Target Detection [0.1759252234439348]
本稿では,3つのキーコンポーネントを統合したMSCA-Netというネットワークアーキテクチャを提案する。 MSEDAは、異なるスケールにわたる情報を適応的に集約するために、マルチスケールのフュージョンアテンション機構を使用している。 PCBAMは相関行列に基づく戦略によりグローバル特徴と局所特徴の相関を捉える。 CABは、それらに重みを割り当て、低レベル情報と高レベル情報を統合することで、重要な特徴の表現を強化する。
論文参考訳（メタデータ） (2025-03-21T14:42:31Z)
Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-29T20:39:16Z)
PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。 PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。 PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文参考訳（メタデータ） (2024-08-26T19:43:01Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文参考訳（メタデータ） (2023-07-18T11:26:02Z)
Learning to Aggregate Multi-Scale Context for Instance Segmentation in Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文参考訳（メタデータ） (2021-11-22T08:55:25Z)
High-resolution Depth Maps Imaging via Attention-based Hierarchical Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-04-04T03:28:33Z)
Global Context-Aware Progressive Aggregation Network for Salient Object Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-03-02T04:26:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。