論文の概要: MCAQ-YOLO: Morphological Complexity-Aware Quantization for Efficient Object Detection with Curriculum Learning
- arxiv url: http://arxiv.org/abs/2511.12976v1
- Date: Mon, 17 Nov 2025 04:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.665521
- Title: MCAQ-YOLO: Morphological Complexity-Aware Quantization for Efficient Object Detection with Curriculum Learning
- Title(参考訳): MCAQ-YOLO:カリキュラム学習による効率的な物体検出のための形態的複雑度を考慮した量子化
- Authors: Yoonjae Seo, Ermal Elbasani, Jaehong Lee,
- Abstract要約: MCAQ-YOLOは、物体検出のための形態的複雑性を考慮した量子化フレームワークである。
MCAQ-YOLOは、形態指標と量子化感度を関連付けることにより、空間的複雑さに応じてビット精度を動的に調整する。
安全装置のデータセットでは、MCAQ-YOLOは85.6% mAP@0.5で平均4.2ビット、圧縮比は7.6倍である。
- 参考スコア(独自算出の注目度): 12.577630686466675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most neural network quantization methods apply uniform bit precision across spatial regions, ignoring the heterogeneous structural and textural complexity of visual data. This paper introduces MCAQ-YOLO, a morphological complexity-aware quantization framework for object detection. The framework employs five morphological metrics - fractal dimension, texture entropy, gradient variance, edge density, and contour complexity - to characterize local visual morphology and guide spatially adaptive bit allocation. By correlating these metrics with quantization sensitivity, MCAQ-YOLO dynamically adjusts bit precision according to spatial complexity. In addition, a curriculum-based quantization-aware training scheme progressively increases quantization difficulty to stabilize optimization and accelerate convergence. Experimental results demonstrate a strong correlation between morphological complexity and quantization sensitivity and show that MCAQ-YOLO achieves superior detection accuracy and convergence efficiency compared with uniform quantization. On a safety equipment dataset, MCAQ-YOLO attains 85.6 percent mAP@0.5 with an average of 4.2 bits and a 7.6x compression ratio, yielding 3.5 percentage points higher mAP than uniform 4-bit quantization while introducing only 1.8 ms of additional runtime overhead per image. Cross-dataset validation on COCO and Pascal VOC further confirms consistent performance gains, indicating that morphology-driven spatial quantization can enhance efficiency and robustness for computationally constrained, safety-critical visual recognition tasks.
- Abstract(参考訳): ほとんどのニューラルネットワーク量子化法は、空間領域にわたって均一なビット精度を適用し、視覚データの異質な構造とテクスチャの複雑さを無視している。
本稿では,物体検出のための形態的複雑性を考慮した量子化フレームワークであるMCAQ-YOLOを紹介する。
このフレームワークは、局所的な視覚形態を特徴づけ、空間適応的なビット割り当てを導くために、フラクタル次元、テクスチャエントロピー、勾配のばらつき、エッジ密度、輪郭の複雑さという5つの形態的指標を使用している。
これらのメトリクスを量子化感度と相関させることで、MCAQ-YOLOは空間的複雑さに応じてビット精度を動的に調整する。
さらに、カリキュラムベースの量子化対応トレーニングスキームは、量子化の難しさを徐々に増加させ、最適化を安定させ、収束を加速させる。
実験結果から, モルフォロジーの複雑性と量子化感度の相関が強く, MCAQ-YOLOは均一量子化よりも優れた検出精度と収束効率が得られることが示された。
安全装置のデータセットでは、MCAQ-YOLOは平均4.2ビットのmAP@0.5と7.6倍の圧縮比で85.6%のmAP@0.5を獲得し、均一な4ビット量子化よりも3.5パーセント高いmAPを実現し、画像当たり1.8msのランタイムオーバーヘッドしか導入していない。
COCO と Pascal VOC のクロスデータセット検証により、一貫した性能向上が確認され、モルフォロジー駆動型空間量子化により、計算的に制約された安全クリティカルな視覚認識タスクの効率性と堅牢性が向上することを示した。
関連論文リスト
- Constrained Shadow Tomography for Molecular Simulation on Quantum Devices [11.572076686962106]
本稿では,制約付きシャドウトモグラフィのための双方向半定値プログラミング手法を提案する。
この方法は$N$で表現可能な2-RDMを構築し、影の測定とエネルギーの最小化のバランスをとる。
数値的およびハードウェア的な結果は、このアプローチが精度、耐雑音性、拡張性を大幅に改善することを示している。
論文 参考訳(メタデータ) (2025-11-12T20:24:43Z) - SDTN and TRN: Adaptive Spectral-Spatial Feature Extraction for Hyperspectral Image Classification [1.2871580250533408]
ハイパースペクトル画像分類は、精密農業において重要な役割を担い、作物の健康モニタリング、病気の検出、土壌分析に関する正確な洞察を提供する。
従来の手法は高次元データ、スペクトル空間の冗長性、ラベル付きサンプルの不足に悩まされ、しばしば準最適性能に繋がる。
これらの課題に対処するために,テンソル分解と正規化機構を組み合わせた自己適応正規化ネットワーク(SDTN)を提案し,テンソルランクを動的に調整する。
このアプローチは、高い分類精度を維持するだけでなく、計算の複雑さを大幅に減らし、リソース制約のある環境でのリアルタイムデプロイメントに非常に適している。
論文 参考訳(メタデータ) (2025-07-13T04:53:33Z) - Structure and asymptotic preserving deep neural surrogates for uncertainty quantification in multiscale kinetic equations [5.181697052513637]
パラメータを持つ運動方程式の高次元性は不確実性定量化(UQ)の計算課題を提起する
伝統的なモンテカルロサンプリング法は、空間の次元が大きくなるにつれて、緩やかな収束と高い分散に悩まされる。
ニューラルネットワークの構造と保存に基づくサロゲートモデル(SAPNN)を導入する。
SAPNNは、肯定性、保存法則、エントロピー散逸、パラメータ制限など、重要な物理特性を満たすように設計されている。
論文 参考訳(メタデータ) (2025-06-12T12:20:53Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - DeepMpMRI: Tensor-decomposition Regularized Learning for Fast and High-Fidelity Multi-Parametric Microstructural MR Imaging [9.223502532342298]
本稿では,複数のモデルから高速かつ高忠実な多重構造パラメータ推定を行うための効率的なフレームワークであるDeepMpMRIを提案する。
DeepMpMRIは、マイクロ構造パラメータ間の高次元相関を利用して、詳細を効果的に捉えるために、新しく設計されたテンソル分解ベースの正規化器を備えている。
HCPデータセットとアルツハイマー病データセットによる実験結果から,5つの最先端手法に対するアプローチの優位性が確認された。
論文 参考訳(メタデータ) (2024-05-06T04:36:02Z) - GLCM-Based Feature Combination for Extraction Model Optimization in Object Detection Using Machine Learning [0.0]
本研究の目的は,GLCMフレームワーク内で適切な特徴を選択することにより,計算効率を向上させることである。
K-Nearest Neighbours(K-NN)とSVM(Support Vector Machine)の2つの分類モデルが採用された。
その結果,K-NNは計算複雑性の点でSVMよりも優れていた。
論文 参考訳(メタデータ) (2024-04-06T10:16:33Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level
Continuous Sparsification [51.81850995661478]
混合精度量子化はディープニューラルネットワーク(DNN)に広く応用されている
トレーニング中のビットレベル正規化とプルーニングに基づく動的精度調整の試みは、ノイズ勾配と不安定収束に悩まされている。
安定度を向上した混合精度量子化スキームを探索するビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:44:21Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。