論文の概要: QYOLO: Lightweight Object Detection via Quantum Inspired Shared Channel Mixing
- arxiv url: http://arxiv.org/abs/2604.26435v1
- Date: Wed, 29 Apr 2026 08:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.318881
- Title: QYOLO: Lightweight Object Detection via Quantum Inspired Shared Channel Mixing
- Title(参考訳): QYOLO:量子インスパイアされた共有チャネル混合による軽量物体検出
- Authors: Garvit Kumar Mittal, Sahil Tomar, Sandeep Kumar,
- Abstract要約: この研究は、真のアーキテクチャ圧縮を実現する量子インスパイアされたチャネルミキシングフレームワークであるQYOLOを紹介する。
提案ブロックは,共有学習可能なパラメータを持つ正弦波混合機構を用いて,グローバルチャネルの校正を行う。
QYOLOv8sは0.1ppの劣化で21.8%の低減を実現し、完全精度のパリティは圧縮コストなしで回収される。
- 参考スコア(独自算出の注目度): 2.571702746660217
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid advancement of object detection architectures has positioned single stage detectors as the dominant solution for real-time visual perception. A primary source of computational overhead in these models lies in the deep backbone stages, where C2f bottleneck modules at high stride levels accumulate a disproportionate share of parameters due to quadratic scaling with channel width. This work introduces QYOLO, a quantum-inspired channel mixing framework that achieves genuine architectural compression by replacing the two deepest backbone C2f modules at P4/16 (512 channels) and P5/32 (1024 channels) with a compact QMixBlock. The proposed block performs global channel recalibration through a sinusoidal mixing mechanism with shared learnable parameters across both backbone stages, enforcing consistent channel importance without requiring independent per-stage parameter sets. The neck and detection head remain fully classical and unchanged. Evaluation on the VisDrone2019 benchmark demonstrates that QYOLOv8n achieves a 20.2% reduction in parameter count (3.01M to 2.40M) and 12.3% GFLOPs reduction with only 0.4 pp mAP@50 degradation. QYOLOv8s achieves 21.8% reduction with 0.1 pp degradation. When combined with knowledge distillation, full accuracy parity is recovered at no cost to compression. An expanded backbone plus neck variant achieved 38 to 41% reduction at the cost of greater accuracy degradation, motivating the backbone-only final design.
- Abstract(参考訳): 物体検出アーキテクチャの急速な進歩は、単一ステージ検出器をリアルタイム視覚の主流のソリューションとして位置づけている。
これらのモデルにおける計算オーバーヘッドの主な原因は、C2fボトルネックモジュールがチャネル幅の2次スケーリングによるパラメータの不均等な共有を蓄積する、深いバックボーンステージにある。
P4/16(512チャンネル)とP5/32(1024チャンネル)の2つの深いバックボーンC2fモジュールをコンパクトなQMixBlockで置き換えることで、真のアーキテクチャ圧縮を実現する量子インスパイアされたチャネルミキシングフレームワークであるQYOLOを導入する。
提案ブロックは,両バックボーンステージに共通する学習可能なパラメータを持つ正弦波混合機構を用いてグローバルチャネルの校正を行う。
首と頭部は完全に古典的で変化しない。
VisDrone2019ベンチマークの評価によると、QYOLOv8nはパラメータ数(3.01Mから2.40M)を20.2%削減し、GFLOPsを12.3%削減した。
QYOLOv8sは0.1ppで21.8%減少する。
知識蒸留と組み合わせると、完全精度のパリティが圧縮コストなしで回収される。
拡張されたバックボーンとネックのバリエーションは、より高精度な劣化を犠牲にして38~41%の削減を実現し、バックボーンのみの最終的な設計の動機となった。
関連論文リスト
- Cross-Modal Alignment and Fusion for RGB-D Transmission-Line Defect Detection [11.637942429146172]
本稿では,RGBの外観と深度幾何学を原理化されたヒューズ・パラダイムを通じて統合したクロスモーダルアライメント・アンド・フュージョン・ネットワークであるCMAFNetを提案する。
CMAFNetは、辞書ベースの特徴浄化を行うセマンティック再構成モジュールで構成されている。
軽量な派生型は228 FPSで24.8% mAP50に達し、わずか4.9Mのパラメータしか持たない。
論文 参考訳(メタデータ) (2026-02-02T06:11:33Z) - Noise-Adaptive Quantum Circuit Mapping for Multi-Chip NISQ Systems via Deep Reinforcement Learning [0.0]
本稿では,双方向長短期記憶に基づく動的雑音適応ネットワークを統合した深層強化学習フレームワークDeepQMapを提案する。
本手法は,量子系の動作の時間的表現を学習することで,ハードウェアのダイナミクスに継続的に適応する。
DeepQMapは平均回路忠実度が0.920 pm 0.023$であり、最先端のQUBO法よりも統計的に49.3%向上している。
論文 参考訳(メタデータ) (2025-11-22T14:27:55Z) - MRS-YOLO Railroad Transmission Line Foreign Object Detection Based on Improved YOLO11 and Channel Pruning [2.6795746856835785]
YOLO11に基づく改良アルゴリズム MRS-YOLOを提案する。
MRS-YOLOアルゴリズムのmAP50とmAP50:95はそれぞれ94.8%と86.4%に改善されている。
論文 参考訳(メタデータ) (2025-10-12T11:38:09Z) - YOLO-ROC: A High-Precision and Ultra-Lightweight Model for Real-Time Road Damage Detection [0.0]
道路損傷検出は、交通安全を確保し、インフラの整合性を維持するための重要な課題である。
本稿では, 道路直交コンパクト(YOLO-ROC)の高精度軽量モデルを提案する。
論文 参考訳(メタデータ) (2025-07-31T03:35:19Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - Hybrid Spectrogram and Waveform Source Separation [91.3755431537592]
エンド・ツー・エンドのハイブリッド・ソース分離を行う方法を示し、各ソースに適したドメインをモデルで決定する。
提案されたDemucsアーキテクチャのハイブリッドバージョンは、ソニーが主催したMusic Demixing Challenge 2021で優勝した。
論文 参考訳(メタデータ) (2021-11-05T16:37:45Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。