論文の概要: DyCAF-Net: Dynamic Class-Aware Fusion Network
- arxiv url: http://arxiv.org/abs/2508.03598v1
- Date: Tue, 05 Aug 2025 16:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.065616
- Title: DyCAF-Net: Dynamic Class-Aware Fusion Network
- Title(参考訳): DyCAF-Net:動的クラス対応核融合ネットワーク
- Authors: Md Abrar Jahin, Shahriar Soudeep, M. F. Mridha, Nafiz Fahad, Md. Jakir Hossen,
- Abstract要約: 動的クラス・アウェア・フュージョン・ネットワーク(DyCAF-Net)について紹介する。
DyCAF-Netは13のベンチマークで精度、mAP@50、mAP@50-95を大幅に改善した。
分散のスケール、セマンティックオーバーラップ、およびクラス不均衡に対する適応性は、実世界の検出タスクの堅牢なソリューションとして位置づけられる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in object detection rely on modular architectures with multi-scale fusion and attention mechanisms. However, static fusion heuristics and class-agnostic attention limit performance in dynamic scenes with occlusions, clutter, and class imbalance. We introduce Dynamic Class-Aware Fusion Network (DyCAF-Net) that addresses these challenges through three innovations: (1) an input-conditioned equilibrium-based neck that iteratively refines multi-scale features via implicit fixed-point modeling, (2) a dual dynamic attention mechanism that adaptively recalibrates channel and spatial responses using input- and class-dependent cues, and (3) class-aware feature adaptation that modulates features to prioritize discriminative regions for rare classes. Through comprehensive ablation studies with YOLOv8 and related architectures, alongside benchmarking against nine state-of-the-art baselines, DyCAF-Net achieves significant improvements in precision, mAP@50, and mAP@50-95 across 13 diverse benchmarks, including occlusion-heavy and long-tailed datasets. The framework maintains computational efficiency ($\sim$11.1M parameters) and competitive inference speeds, while its adaptability to scale variance, semantic overlaps, and class imbalance positions it as a robust solution for real-world detection tasks in medical imaging, surveillance, and autonomous systems.
- Abstract(参考訳): オブジェクト検出の最近の進歩は、マルチスケールの融合とアテンション機構を備えたモジュラーアーキテクチャに依存している。
しかし、静的融合ヒューリスティックスとクラス非依存アテンションは、オクルージョン、クラッタ、クラス不均衡を伴う動的シーンのパフォーマンスを制限する。
本稿では,(1)暗黙的な固定点モデリングにより,複数規模の特徴を反復的に洗練する入力条件付き平衡型ネック,(2)入力とクラス依存のキューを用いて,チャネルと空間応答を適応的に調整するデュアルダイナミックアテンション機構,(3)レアクラスの識別領域を優先するために特徴を変調するクラス認識機能適応の3つの革新を通じて,これらの課題に対処する動的クラス認識融合ネットワーク(DyCAF-Net)を紹介した。
YOLOv8と関連アーキテクチャによる包括的なアブレーション調査と9つの最先端ベースラインに対するベンチマークによって、DyCAF-Netは、オクルージョン重と長い尾のデータセットを含む13の多様なベンチマークに対して、精度、mAP@50、mAP@50-95の大幅な改善を実現している。
このフレームワークは計算効率($11.1M パラメータ)と競合推論速度を維持し、分散、セマンティックオーバーラップ、クラス不均衡への適応性は、医療画像、監視、自律システムにおける実世界の検出タスクの堅牢な解決策として位置づけている。
関連論文リスト
- Quantum-Informed Contrastive Learning with Dynamic Mixup Augmentation for Class-Imbalanced Expert Systems [0.0]
QCL-MixNetは、不均衡下でのロバストな分類のための動的混合のための新しいフレームワークである。
QCL-MixNetは、20の最先端の機械学習、ディープラーニング、GNNベースのベースラインをマクロF1とリコールで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-16T20:44:30Z) - AFD-STA: Adaptive Filtering Denoising with Spatiotemporal Attention for Chaotic System Prediction [4.833734041528231]
AFD-STAネットは、偏微分方程式によって支配される高次元カオスシステムを予測するための枠組みを示す。
このフレームワークは、測定の不確かさと高次元非線形ダイナミクスの同時処理を必要とする実世界のアプリケーションにとって有望な可能性を示している。
論文 参考訳(メタデータ) (2025-05-23T16:39:07Z) - Dynamic Attention Mechanism in Spatiotemporal Memory Networks for Object Tracking [8.040709469401257]
本研究では,空間的注意重みを解析することにより,注意重みを適応的に調節する動的注意機構を提案する。
目標運動状態に基づいて計算資源を自律的に割り当てる軽量ゲーティングネットワークは、挑戦的なシナリオにおいて高い識別可能性の特徴を優先する。
論文 参考訳(メタデータ) (2025-03-21T00:48:31Z) - Static-Dynamic Class-level Perception Consistency in Video Semantic Segmentation [9.964615076037397]
ビデオセマンティックセグメンテーション(VSS)は、同時ローカライゼーションやマッピングなど、多くの分野で広く利用されている。
これまでの取り組みは主にピクセルレベルの静的なコンテキストマッチングに重点を置いてきた。
本稿では,クラスレベルでの静的なコンテキストを再考し,新しい静的なクラスレベルの知覚整合性フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T02:29:51Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [115.79349923044663]
FSCIL(Few-shot class-incremental Learning)は、限られた例から新しいクラスを段階的に学習することを目的としている。
静的アーキテクチャは固定パラメータ空間に依存して、逐次到着するデータから学習し、現在のセッションに過度に適合する傾向がある。
本研究では,FSCILにおける選択状態空間モデル(SSM)の可能性について検討する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Dynamic Feature Learning and Matching for Class-Incremental Learning [20.432575325147894]
CIL(Class-incremental Learning)は,従来のクラスを破滅的に忘れることなく,新しいクラスを学習する方法として登場した。
本稿では,動的特徴学習とマッチング(DFLM)モデルを提案する。
提案手法は既存手法に比べて大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-05-14T12:17:19Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - ClusterVO: Clustering Moving Instances and Estimating Visual Odometry
for Self and Surroundings [54.33327082243022]
ClusterVOはステレオビジュアルオドメトリーで、エゴと周囲の固いクラスタ/オブジェクトの両方の動きを同時にクラスタし、推定する。
以前のソリューションでは、バッチ入力やシーン構造や動的オブジェクトモデルへの事前の指示に頼っていたが、ClusterVOは一般的にオンラインであり、屋内のシーン理解や自律運転など、さまざまなシナリオで使用することができる。
論文 参考訳(メタデータ) (2020-03-29T09:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。