論文の概要: Divide, Weight, and Route: Difficulty-Aware Optimization with Dynamic Expert Fusion for Long-tailed Recognition
- arxiv url: http://arxiv.org/abs/2508.19630v1
- Date: Wed, 27 Aug 2025 07:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.538212
- Title: Divide, Weight, and Route: Difficulty-Aware Optimization with Dynamic Expert Fusion for Long-tailed Recognition
- Title(参考訳): 分割, ウェイト, ルート: 長距離認識のための動的エキスパートフュージョンを用いた難解な最適化
- Authors: Xiaolei Wei, Yi Ouyang, Haibo Ye,
- Abstract要約: textbfDQRouteは、難易度を考慮した最適化と動的専門家のコラボレーションを組み合わせたモジュラーフレームワークである。
DQRouteはまず、予測の不確実性と過去のパフォーマンスに基づいて、クラスレベルの難易度を推定する。
推測時に専門家予測は、専門家固有のOOD検出器から得られる信頼度スコアによって重み付けされ、入力適応ルーティングが可能である。
- 参考スコア(独自算出の注目度): 3.616706632062255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-tailed visual recognition is challenging not only due to class imbalance but also because of varying classification difficulty across categories. Simply reweighting classes by frequency often overlooks those that are intrinsically hard to learn. To address this, we propose \textbf{DQRoute}, a modular framework that combines difficulty-aware optimization with dynamic expert collaboration. DQRoute first estimates class-wise difficulty based on prediction uncertainty and historical performance, and uses this signal to guide training with adaptive loss weighting. On the architectural side, DQRoute employs a mixture-of-experts design, where each expert specializes in a different region of the class distribution. At inference time, expert predictions are weighted by confidence scores derived from expert-specific OOD detectors, enabling input-adaptive routing without the need for a centralized router. All components are trained jointly in an end-to-end manner. Experiments on standard long-tailed benchmarks demonstrate that DQRoute significantly improves performance, particularly on rare and difficult classes, highlighting the benefit of integrating difficulty modeling with decentralized expert routing.
- Abstract(参考訳): 長い尾の視覚認識は、階級不均衡のためだけでなく、カテゴリーによって分類が困難であるために困難である。
単純に頻度でクラスを再重み付けすることは、本質的に習得が難しいものを見落としていることが多い。
この問題に対処するために,難易度を考慮した最適化と動的専門家のコラボレーションを組み合わせたモジュール型フレームワークである \textbf{DQRoute} を提案する。
DQRouteはまず、予測の不確実性と履歴性能に基づいてクラスレベルの難易度を推定し、この信号を用いて適応的な損失重み付けによるトレーニングをガイドする。
アーキテクチャ面では、DQRouteは、各専門家がクラス分布の異なる領域を専門とする、エキスパートの混合設計を採用している。
推測時に専門家予測は、専門家固有のOOD検出器から得られる信頼度スコアによって重み付けされ、中央のルータを必要とせずに入力適応的なルーティングを可能にする。
すべてのコンポーネントはエンドツーエンドで共同でトレーニングされる。
標準的なロングテールベンチマークの実験では、DQRouteは、特に稀で難しいクラスにおいて、パフォーマンスを著しく改善し、分散化されたエキスパートルーティングと難易度モデリングを統合する利点を強調している。
関連論文リスト
- Divide, Specialize, and Route: A New Approach to Efficient Ensemble Learning [0.0]
バイナリ分類のための新しいアンサンブルフレームワーク Hellsemble を提案する。
Hellsembleはデータセットを難易度の円に段階的に分割する。
計算効率と解釈可能性を維持しながら、強力な分類精度を達成する。
論文 参考訳(メタデータ) (2025-06-25T20:26:04Z) - Advancing Expert Specialization for Better MoE [22.570561334474252]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。
本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2025-05-28T13:09:47Z) - On the Role of Discrete Representation in Sparse Mixture of Experts [33.809432499123275]
VQMoE(Vector-Quantized Mixture of Experts)と呼ばれる新しいアーキテクチャを提案する。
VQMoEは計算コストを増大させることなく、モデルキャパシティをスケールアップするための効果的なソリューションである。
VQMoEは,他のSMoEルーティング方式と比較して,ルータの28%の改善を実現している。
論文 参考訳(メタデータ) (2024-11-28T22:32:01Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Soft Merging of Experts with Adaptive Routing [38.962451264172856]
適応ルーティングによるエキスパートのソフトマージ(SMEAR)について紹介する
SMEARは、専門家のパラメータの重み付け平均を通して構築された単一の「マージされた」専門家を使用することで、離散的なルーティングを避ける。
我々は,メタデータに基づいた経路モデルや,勾配推定によるスパースルーティングを学習するSMEARモデルを用いたモデルの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-06T15:04:31Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z) - Long-tailed Recognition by Routing Diverse Distribution-Aware Experts [64.71102030006422]
我々は、RoutIng Diverse Experts (RIDE) と呼ばれる新しい長い尾の分類器を提案する。
複数の専門家とのモデルの分散を減らし、分布を考慮した多様性損失によるモデルバイアスを減らし、動的専門家ルーティングモジュールによる計算コストを削減します。
RIDEは、CIFAR100-LT、ImageNet-LT、iNaturalist 2018ベンチマークで最先端を5%から7%上回っている。
論文 参考訳(メタデータ) (2020-10-05T06:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。