論文の概要: Divide, Weight, and Route: Difficulty-Aware Optimization with Dynamic Expert Fusion for Long-tailed Recognition
- arxiv url: http://arxiv.org/abs/2508.19630v1
- Date: Wed, 27 Aug 2025 07:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.538212
- Title: Divide, Weight, and Route: Difficulty-Aware Optimization with Dynamic Expert Fusion for Long-tailed Recognition
- Title(参考訳): 分割, ウェイト, ルート: 長距離認識のための動的エキスパートフュージョンを用いた難解な最適化
- Authors: Xiaolei Wei, Yi Ouyang, Haibo Ye,
- Abstract要約: textbfDQRouteは、難易度を考慮した最適化と動的専門家のコラボレーションを組み合わせたモジュラーフレームワークである。
DQRouteはまず、予測の不確実性と過去のパフォーマンスに基づいて、クラスレベルの難易度を推定する。
推測時に専門家予測は、専門家固有のOOD検出器から得られる信頼度スコアによって重み付けされ、入力適応ルーティングが可能である。
- 参考スコア(独自算出の注目度): 3.616706632062255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-tailed visual recognition is challenging not only due to class imbalance but also because of varying classification difficulty across categories. Simply reweighting classes by frequency often overlooks those that are intrinsically hard to learn. To address this, we propose \textbf{DQRoute}, a modular framework that combines difficulty-aware optimization with dynamic expert collaboration. DQRoute first estimates class-wise difficulty based on prediction uncertainty and historical performance, and uses this signal to guide training with adaptive loss weighting. On the architectural side, DQRoute employs a mixture-of-experts design, where each expert specializes in a different region of the class distribution. At inference time, expert predictions are weighted by confidence scores derived from expert-specific OOD detectors, enabling input-adaptive routing without the need for a centralized router. All components are trained jointly in an end-to-end manner. Experiments on standard long-tailed benchmarks demonstrate that DQRoute significantly improves performance, particularly on rare and difficult classes, highlighting the benefit of integrating difficulty modeling with decentralized expert routing.
- Abstract(参考訳): 長い尾の視覚認識は、階級不均衡のためだけでなく、カテゴリーによって分類が困難であるために困難である。
単純に頻度でクラスを再重み付けすることは、本質的に習得が難しいものを見落としていることが多い。
この問題に対処するために,難易度を考慮した最適化と動的専門家のコラボレーションを組み合わせたモジュール型フレームワークである \textbf{DQRoute} を提案する。
DQRouteはまず、予測の不確実性と履歴性能に基づいてクラスレベルの難易度を推定し、この信号を用いて適応的な損失重み付けによるトレーニングをガイドする。
アーキテクチャ面では、DQRouteは、各専門家がクラス分布の異なる領域を専門とする、エキスパートの混合設計を採用している。
推測時に専門家予測は、専門家固有のOOD検出器から得られる信頼度スコアによって重み付けされ、中央のルータを必要とせずに入力適応的なルーティングを可能にする。
すべてのコンポーネントはエンドツーエンドで共同でトレーニングされる。
標準的なロングテールベンチマークの実験では、DQRouteは、特に稀で難しいクラスにおいて、パフォーマンスを著しく改善し、分散化されたエキスパートルーティングと難易度モデリングを統合する利点を強調している。
関連論文リスト
- Trade-offs in Ensembling, Merging and Routing Among Parameter-Efficient Experts [56.02203242609604]
大規模言語モデル(LLM)は、軽量アダプタで微調整され、多様なタスクにわたって強力なパフォーマンスを実現する。
異なる強みを持つ独立に訓練されたモデルを使用することで、3つの主要な戦略を通じてマルチタスク学習の可能性を示している。
私たちは、彼らのトレードオフを実証的に評価し、2つの重要な疑問に対処します。 均一なアンサンブルやマージを超えて行く利点は何ですか?そして、ルーティングの柔軟性は、その複雑さを正当化するのでしょうか?
論文 参考訳(メタデータ) (2026-03-03T21:44:11Z) - SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization [13.182475975397251]
ERMoEは、学習したゲーティングログを"Eigenbasis Score"に置き換えるスパースなMoE変換器である
ERMoE は ImageNet 分類と クロスモーダル画像テキスト検索ベンチマークにおける最先端の精度を実現する。
3D MRI変異体(ERMoE-ba)は、脳年齢予測の精度を7%以上改善し、解釈可能な専門家の専門化をもたらす。
論文 参考訳(メタデータ) (2025-11-14T05:31:37Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Divide, Specialize, and Route: A New Approach to Efficient Ensemble Learning [0.0]
バイナリ分類のための新しいアンサンブルフレームワーク Hellsemble を提案する。
Hellsembleはデータセットを難易度の円に段階的に分割する。
計算効率と解釈可能性を維持しながら、強力な分類精度を達成する。
論文 参考訳(メタデータ) (2025-06-25T20:26:04Z) - Advancing Expert Specialization for Better MoE [22.570561334474252]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。
本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2025-05-28T13:09:47Z) - On the Role of Discrete Representation in Sparse Mixture of Experts [33.809432499123275]
VQMoE(Vector-Quantized Mixture of Experts)と呼ばれる新しいアーキテクチャを提案する。
VQMoEは計算コストを増大させることなく、モデルキャパシティをスケールアップするための効果的なソリューションである。
VQMoEは,他のSMoEルーティング方式と比較して,ルータの28%の改善を実現している。
論文 参考訳(メタデータ) (2024-11-28T22:32:01Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Soft Merging of Experts with Adaptive Routing [38.962451264172856]
適応ルーティングによるエキスパートのソフトマージ(SMEAR)について紹介する
SMEARは、専門家のパラメータの重み付け平均を通して構築された単一の「マージされた」専門家を使用することで、離散的なルーティングを避ける。
我々は,メタデータに基づいた経路モデルや,勾配推定によるスパースルーティングを学習するSMEARモデルを用いたモデルの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-06T15:04:31Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z) - Long-tailed Recognition by Routing Diverse Distribution-Aware Experts [64.71102030006422]
我々は、RoutIng Diverse Experts (RIDE) と呼ばれる新しい長い尾の分類器を提案する。
複数の専門家とのモデルの分散を減らし、分布を考慮した多様性損失によるモデルバイアスを減らし、動的専門家ルーティングモジュールによる計算コストを削減します。
RIDEは、CIFAR100-LT、ImageNet-LT、iNaturalist 2018ベンチマークで最先端を5%から7%上回っている。
論文 参考訳(メタデータ) (2020-10-05T06:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。