論文の概要: Dynamic-DINO: Fine-Grained Mixture of Experts Tuning for Real-time Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2507.17436v1
- Date: Wed, 23 Jul 2025 11:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.977464
- Title: Dynamic-DINO: Fine-Grained Mixture of Experts Tuning for Real-time Open-Vocabulary Object Detection
- Title(参考訳): Dynamic-DINO: リアルタイムオープン語彙オブジェクト検出のためのエキスパートチューニングの微粒化
- Authors: Yehao Lu, Minghe Weng, Zekang Xiao, Rui Jiang, Wei Su, Guangcong Zheng, Ping Lu, Xi Li,
- Abstract要約: 本研究では,DINO 1.5 Edge を高密度モデルから効率的な MoE-Tuning 戦略により動的推論フレームワークに拡張する Dynamic-DINO を提案する。
また、ベースモデルのフィードフォワードネットワーク(FFN)を複数のより小さな専門家ネットワークに分解する分解機構を設計する。
実験によると、わずか1.56Mのオープンソースデータで事前トレーニングされたDynamic-DINOは、プライベートなGrounding20Mデータセットで事前トレーニングされたGrounding DINO 1.5 Edgeよりパフォーマンスが優れている。
- 参考スコア(独自算出の注目度): 10.639484582036088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Mixture of Experts (MoE) architecture has excelled in Large Vision-Language Models (LVLMs), yet its potential in real-time open-vocabulary object detectors, which also leverage large-scale vision-language datasets but smaller models, remains unexplored. This work investigates this domain, revealing intriguing insights. In the shallow layers, experts tend to cooperate with diverse peers to expand the search space. While in the deeper layers, fixed collaborative structures emerge, where each expert maintains 2-3 fixed partners and distinct expert combinations are specialized in processing specific patterns. Concretely, we propose Dynamic-DINO, which extends Grounding DINO 1.5 Edge from a dense model to a dynamic inference framework via an efficient MoE-Tuning strategy. Additionally, we design a granularity decomposition mechanism to decompose the Feed-Forward Network (FFN) of base model into multiple smaller expert networks, expanding the subnet search space. To prevent performance degradation at the start of fine-tuning, we further propose a pre-trained weight allocation strategy for the experts, coupled with a specific router initialization. During inference, only the input-relevant experts are activated to form a compact subnet. Experiments show that, pretrained with merely 1.56M open-source data, Dynamic-DINO outperforms Grounding DINO 1.5 Edge, pretrained on the private Grounding20M dataset.
- Abstract(参考訳): Mixture of Experts (MoE)アーキテクチャはLVLM(Large Vision-Language Models)で優れているが、大規模なビジョン言語データセットを活用できるが、より小さなモデルも探索されていないリアルタイムオープン語彙オブジェクト検出器の可能性を秘めている。
この研究はこの領域を調査し、興味深い洞察を明らかにします。
浅い層では、専門家は多様な仲間と協力して検索スペースを拡大する傾向がある。
より深いレイヤでは、各専門家が2-3の固定パートナを維持し、異なる専門家の組み合わせが特定のパターンの処理に特化しているような、固定された協調構造が出現します。
具体的には,DINO 1.5 Edge を高密度モデルから効率的な MoE-Tuning 戦略により動的推論フレームワークに拡張する Dynamic-DINO を提案する。
さらに、ベースモデルのフィードフォワードネットワーク(FFN)を複数のより小さな専門家ネットワークに分解し、サブネット検索空間を拡大する粒度分解機構を設計する。
微調整開始時の性能劣化を防止するため,特定のルータの初期化と合わせて,専門家のための事前訓練した重み付け戦略を提案する。
推論中は、入力関連の専門家のみを活性化してコンパクトなサブネットを形成する。
実験によると、わずか1.56Mのオープンソースデータで事前トレーニングされたDynamic-DINOは、プライベートなGrounding20Mデータセットで事前トレーニングされたGrounding DINO 1.5 Edgeよりパフォーマンスが優れている。
関連論文リスト
- Enhanced DeepONet for 1-D consolidation operator learning: an architectural investigation [1.1743167854433305]
Deep Operator Networks (DeepONets) は、PDEが支配するシステムにおいて、ソリューション演算子を学習するための強力な代理モデリングフレームワークとして登場した。
本研究では,一次元凝縮問題に対する複数のDeepONetアーキテクチャを体系的に評価する。
論文 参考訳(メタデータ) (2025-07-14T15:09:58Z) - MoE-MLoRA for Multi-Domain CTR Prediction: Efficient Adaptation with Expert Specialization [0.0]
MoE-MLoRAはエキスパートの混成フレームワークで、各専門家はドメインを専門にするために独立して訓練される。
MoE-MLoRAはMovielensとTaobaoの8つのCTRモデルで評価した。
論文 参考訳(メタデータ) (2025-06-09T09:03:05Z) - On DeepSeekMoE: Statistical Benefits of Shared Experts and Normalized Sigmoid Gating [75.29576838162714]
DeepSeekMoEは、共有専門家戦略の展開と正規化されたシグモイドゲーティングメカニズムの2つのユニークな特徴から際立っている。
本研究では, 共有専門家戦略と正規化シグモイドゲーティングの両方において, サンプル効率の利得を明らかにするために, 専門家推定タスクの収束解析を行う。
論文 参考訳(メタデータ) (2025-05-16T04:58:18Z) - Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations [48.890534958441016]
本研究では,大規模MoEモデルにおける領域の特殊化と専門的冗長性について検討する。
本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。
DeepSeek-R1とDeepSeek-V3-0324の実験は、我々の手法が同じメモリ予算の下で同等の性能と2.99タイムのスループットを達成できることを示した。
論文 参考訳(メタデータ) (2025-04-09T11:34:06Z) - Finedeep: Mitigating Sparse Activation in Dense LLMs via Multi-Layer Fine-Grained Experts [82.74439280067492]
ファインディープ(英: Finedeep)は、高密度モデルのための、きめ細かいきめ細かなアーキテクチャである。
我々のフレームワークは、従来の高密度モデルのフィードフォワードニューラルネットワーク層を小さな専門家に分割する。
各専門家の貢献度を決定するための新しいルーティング機構が提案されている。
論文 参考訳(メタデータ) (2025-02-18T15:09:58Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Ensemble and Mixture-of-Experts DeepONets For Operator Learning [4.604003661048267]
本稿では,演算子学習のための新しいディープ演算子ネットワーク(DeepONet)アーキテクチャを提案する。
アンサンブルのDeepONetは、1つのDeepONetのトランクネットワークを複数の異なるトランクネットワークで強化することを可能にする。
また,DeepONetトランクネットワークアーキテクチャの空間混合(MoE)について述べる。
論文 参考訳(メタデータ) (2024-05-20T09:42:44Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Improving Expert Specialization in Mixture of Experts [0.7366405857677227]
エキスパートの混合(MoE)は、最も単純なゲート付きモジュラーニューラルネットワークアーキテクチャである。
元のMoEアーキテクチャとそのトレーニング手法は直感的なタスク分解と優れた専門家の活用を保証するものではないことを示す。
我々は,注目度に類似した新しいゲーティングアーキテクチャを導入し,性能を向上し,エントロピータスクの分解を低くする。
論文 参考訳(メタデータ) (2023-02-28T16:16:45Z) - Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。
本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。
都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文 参考訳(メタデータ) (2022-09-26T23:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。