論文の概要: YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection
- arxiv url: http://arxiv.org/abs/2512.23273v2
- Date: Tue, 30 Dec 2025 12:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 13:52:31.626765
- Title: YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection
- Title(参考訳): YOLO-Master: MOE-Accelerated with Specialized Transformer for Enhanced Real-time Detection
- Authors: Xu Lin, Jinlong Peng, Zhenye Gan, Jiawen Zhu, Jun Liu,
- Abstract要約: YOLO-Masterは、リアルタイムオブジェクト検出のためのインスタンス条件適応計算を導入する、YOLOライクな新しいフレームワークである。
我々のモデルは1.62msのレイテンシで42.4%のAPを達成し、YOLOv13-Nを+0.8% mAPで上回り、17.8%高速化した。
- 参考スコア(独自算出の注目度): 26.013463778761317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Real-Time Object Detection (RTOD) methods commonly adopt YOLO-like architectures for their favorable trade-off between accuracy and speed. However, these models rely on static dense computation that applies uniform processing to all inputs, misallocating representational capacity and computational resources such as over-allocating on trivial scenes while under-serving complex ones. This mismatch results in both computational redundancy and suboptimal detection performance. To overcome this limitation, we propose YOLO-Master, a novel YOLO-like framework that introduces instance-conditional adaptive computation for RTOD. This is achieved through a Efficient Sparse Mixture-of-Experts (ES-MoE) block that dynamically allocates computational resources to each input according to its scene complexity. At its core, a lightweight dynamic routing network guides expert specialization during training through a diversity enhancing objective, encouraging complementary expertise among experts. Additionally, the routing network adaptively learns to activate only the most relevant experts, thereby improving detection performance while minimizing computational overhead during inference. Comprehensive experiments on five large-scale benchmarks demonstrate the superiority of YOLO-Master. On MS COCO, our model achieves 42.4% AP with 1.62ms latency, outperforming YOLOv13-N by +0.8% mAP and 17.8% faster inference. Notably, the gains are most pronounced on challenging dense scenes, while the model preserves efficiency on typical inputs and maintains real-time inference speed. Code will be available.
- Abstract(参考訳): 既存のリアルタイムオブジェクト検出(RTOD)手法では、精度と速度のトレードオフとして、YOLOのようなアーキテクチャが一般的である。
しかし、これらのモデルは、全ての入力に一様処理を適用する静的密度計算、表現能力の誤配置、複雑なシーンを過度に配置するといった計算資源に依存している。
このミスマッチは、計算冗長性と準最適検出性能の両方をもたらす。
この制限を克服するために,RTODのインスタンス条件適応計算を導入したYOLO-Masterを提案する。
これは、効率の良いスパース・ミックス・オブ・エクスプット(ES-MoE)ブロックによって実現され、シーンの複雑さに応じて計算資源を各入力に動的に割り当てる。
その中核は、軽量な動的ルーティングネットワークで、多様性向上の目標を通じて訓練中の専門家の専門化をガイドし、専門家間の補完的な専門知識を奨励する。
さらに、ルーティングネットワークは、最も関係のある専門家のみを活性化させることを適応的に学習し、推論時の計算オーバーヘッドを最小限にしつつ、検出性能を向上させる。
5つの大規模ベンチマークに関する総合的な実験は、YOLO-Masterの優位性を示している。
MS COCOでは、1.62msのレイテンシで42.4%のAPを達成し、YOLOv13-Nを+0.8% mAPで上回り、17.8%高速化した。
特に、ゲインは難易度の高いシーンで最も顕著に発音される一方、モデルは典型的な入力の効率を保ち、リアルタイムの推論速度を維持する。
コードは利用可能です。
関連論文リスト
- MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - LExI: Layer-Adaptive Active Experts for Efficient MoE Model Inference [2.8653469160349077]
我々は、事前訓練されたMoEモデルにおいて、各層当たりのアクティブな専門家の最適な数を決定する、データフリーな最適化手法であるLExIを紹介する。
最先端の言語とビジョンのMoEベンチマークの実験では、LExIは推論効率の点で従来のMoEプルーニング手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-09-02T19:01:46Z) - DualSparse-MoE: Coordinating Tensor/Neuron-Level Sparsity with Expert Partition and Reconstruction [15.261077484922616]
Mixture of Experts (MoE) はLarge Language Models (LLM) の主流アーキテクチャとなった。
トレーニング済みMoEモジュールにおけるテンソルとニューロンの二重間隔を精度と効率の両立の鍵因子として同定した。
本稿では,動的テンソルレベル低下と静的ニューロンレベル再構成を統合する推論システムであるDualSparse-MoEを提案する。
論文 参考訳(メタデータ) (2025-08-25T18:08:32Z) - Multi-Agent Reinforcement Learning for Sample-Efficient Deep Neural Network Mapping [54.65536245955678]
本稿では,サンプル非効率性の課題を克服するために,分散型マルチエージェント強化学習(MARL)フレームワークを提案する。
相関解析に基づいて類似のマッピングパラメータを同一エージェントに割り当てるエージェントクラスタリングアルゴリズムを提案する。
実験の結果,MARL法は標準単エージェントRLよりも30~300倍効率が向上した。
論文 参考訳(メタデータ) (2025-07-22T05:51:07Z) - YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception [58.06752127687312]
高精度で軽量な物体検出器YOLOv13を提案する。
ハイパーグラフに基づく適応相関強化(HyperACE)機構を提案する。
また,FullPAD(Full-Pipeline Aggregation-and-Distribution)パラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-21T15:15:03Z) - Dynamic Action Interpolation: A Universal Approach for Accelerating Reinforcement Learning with Expert Guidance [0.0]
強化学習(Reinforcement Learning, RL)は、特に早期訓練において、重度のサンプル非効率性に悩まされる。
本稿では,エキスパートとRLアクションを補間する汎用的かつ簡単なフレームワークであるDynamic Action Interpolation (DAI)を提案する。
理論的解析により,DAIは状態訪問分布を再現し,値関数学習を加速することを示した。
論文 参考訳(メタデータ) (2025-04-26T02:12:02Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。