論文の概要: GlimmerNet: A Lightweight Grouped Dilated Depthwise Convolutions for UAV-Based Emergency Monitoring
- arxiv url: http://arxiv.org/abs/2512.07391v1
- Date: Mon, 08 Dec 2025 10:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.836864
- Title: GlimmerNet: A Lightweight Grouped Dilated Depthwise Convolutions for UAV-Based Emergency Monitoring
- Title(参考訳): GlimmerNet:UAVによる緊急監視のための軽量グループ付きディペンダブルコンボリューション
- Authors: Đorđe Nedeljković,
- Abstract要約: GlimmerNetは、機能再結合から受容界の多様性を分離する原理に基づいて構築された超軽量畳み込みネットワークである。
最新のベースラインよりもたった31Kパラメータと29%のFLOPを削減したGlimmerNetは、UAV中心のAv2データセットで0.966の、最先端の重み付きF1スコアを新たに達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural Networks (CNNs) have proven highly effective for edge and mobile vision tasks due to their computational efficiency. While many recent works seek to enhance CNNs with global contextual understanding via self-attention-based Vision Transformers, these approaches often introduce significant computational overhead. In this work, we demonstrate that it is possible to retain strong global perception without relying on computationally expensive components. We present GlimmerNet, an ultra-lightweight convolutional network built on the principle of separating receptive field diversity from feature recombination. GlimmerNet introduces Grouped Dilated Depthwise Convolutions(GDBlocks), which partition channels into groups with distinct dilation rates, enabling multi-scale feature extraction at no additional parameter cost. To fuse these features efficiently, we design a novel Aggregator module that recombines cross-group representations using grouped pointwise convolution, significantly lowering parameter overhead. With just 31K parameters and 29% fewer FLOPs than the most recent baseline, GlimmerNet achieves a new state-of-the-art weighted F1-score of 0.966 on the UAV-focused AIDERv2 dataset. These results establish a new accuracy-efficiency trade-off frontier for real-time emergency monitoring on resource-constrained UAV platforms. Our implementation is publicly available at https://github.com/djordjened92/gdd-cnn.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、その計算効率のためにエッジおよびモバイルビジョンタスクに非常に効果的であることが証明されている。
近年の多くの研究は、自己注意に基づく視覚変換器による世界的文脈理解によるCNNの強化を目指しているが、これらの手法は計算オーバーヘッドを著しく引き起こすことが多い。
本研究では,計算コストのかかるコンポーネントに頼ることなく,グローバルな認識を強く維持できることを実証する。
超軽量な畳み込みネットワークであるGlimmerNetについて述べる。
GlimmerNetは、GDBlocks(Grouped Dilated Depthwise Convolutions)を導入し、異なるダイレーションレートのグループにチャネルを分割する。
これらの特徴を効果的に利用するために,グループ化ポイントワイド畳み込みを用いてグループ間表現を再結合する新しいアグリゲータモジュールを設計し,パラメータのオーバーヘッドを大幅に低減する。
最新のベースラインよりもわずか31Kパラメータと29%のFLOPを削減したGlimmerNetは、UAVにフォーカスしたAIDERv2データセット上で、最先端の重み付きF1スコアの0.966を新たに達成した。
これらの結果は、資源制約されたUAVプラットフォーム上でのリアルタイム緊急監視のための新しい精度効率トレードオフフロンティアを確立する。
私たちの実装はhttps://github.com/djordjened92/gdd-cnn.comで公開されています。
関連論文リスト
- DiRecNetV2: A Transformer-Enhanced Network for Aerial Disaster Recognition [4.678150356894011]
災害評価における航空画像処理のための人工知能(AI)モデルと無人航空機の統合には、例外的な精度、計算効率、リアルタイム処理能力が必要である。
伝統的に、畳み込みニューラルネットワーク(CNN)は局所的特徴抽出の効率を示すが、大域的文脈解釈の可能性によって制限される。
視覚変換器(ViT)は、注意機構を用いることで、グローバルな文脈解釈の改善を約束するが、それでもUAVベースの災害対応アプリケーションでは未検討である。
論文 参考訳(メタデータ) (2024-10-17T15:25:13Z) - CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction [14.377544481394013]
CTA-NetはCNNとViTを組み合わせて、長距離依存関係をキャプチャするトランスフォーマーと、ローカライズされた特徴を抽出するCNNを備えている。
この統合により、詳細なローカルおよびより広いコンテキスト情報の効率的な処理が可能になる。
10万以上のサンプルを持つ小規模データセットの実験は、CTA-Netが優れたパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2024-10-15T09:27:26Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition [63.93802691275012]
グローバル・ローカル・ダイナミクスを同時に学習するための軽量なデュアル・ダイナミック・トケン・ミキサー(D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1K分類では、TransXNet-TはSwin-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Ghost-dil-NetVLAD: A Lightweight Neural Network for Visual Place Recognition [3.6249801498927923]
本稿では,GhostCNNと呼ばれるフロントエンド認識モデルと学習可能なVLAD層をバックエンドとして構成した,軽量な教師付きエンドツーエンドニューラルネットワークを提案する。
提案する軽量モデルをさらに強化するため,Ghostモジュールに拡張畳み込みを加えて,より空間的意味情報を含む特徴を抽出し,精度を向上する。
論文 参考訳(メタデータ) (2021-12-22T06:05:02Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Self-grouping Convolutional Neural Networks [30.732298624941738]
本稿では,SG-CNNと呼ばれる自己グループ型畳み込みニューラルネットワークの設計手法を提案する。
各フィルタについて、まず入力チャネルの重要度を評価し、重要度ベクトルを同定する。
得られたデータに依存したセントロイドを用いて、重要でない接続を創り出し、プルーニングの精度損失を暗黙的に最小化する。
論文 参考訳(メタデータ) (2020-09-29T06:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。