論文の概要: Hecto: Modular Sparse Experts for Adaptive and Interpretable Reasoning
- arxiv url: http://arxiv.org/abs/2506.22919v1
- Date: Sat, 28 Jun 2025 15:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.630365
- Title: Hecto: Modular Sparse Experts for Adaptive and Interpretable Reasoning
- Title(参考訳): Hecto: 適応性と解釈可能な推論のためのモジュールスパースエキスパート
- Authors: Sanskar Pandey, Ruhaan Chopra, Saad Murtaza Bhat, Ark Abhyudaya,
- Abstract要約: Hectoは軽量なMoEアーキテクチャで、時間的推論のためのGRUエキスパートと、スパースなTop-1ゲーティングメカニズムの下で静的抽象化のためのFFNNエキスパートを組み合わせる。
ヘクトは、独立した入力表現を受け取っているにもかかわらず、パフォーマンスにおいて均質なベースラインにマッチまたは密接に追従する。
Hectoは条件計算の新しいベンチマークとして自らを確立している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models enable conditional computation by routing inputs to specialized experts, but these experts rely on identical inductive biases, thus limiting representational diversity. This static computation pathway is inefficient for inputs that require different types of reasoning and limits specialization and interpretability. We propose Hecto, a lightweight MoE architecture that leverages architectural heterogeneity by combining a GRU expert for temporal reasoning and an FFNN expert for static abstraction under a sparse Top-1 gating mechanism. Evaluated on three reasoning benchmarks (AG News, SST-2, HotpotQA) and a regression task (STS-B), Hecto matches or closely trails homogeneous baselines in performance despite receiving isolated input representations, while achieving clear expert specialization, with each expert aligning to distinct reasoning types (temporal vs static). At larger batch sizes, Hecto exhibits improved performance, benefiting from relaxed computational constraints that allow its heterogeneous architecture to optimize more effectively. Ablation results isolate architectural diversity as the source of Hecto's stability and interpretability across diverse reasoning tasks. Overall, Hecto establishes itself as a new benchmark for conditional computation, offering a principled framework for specialized reasoning in low-resource regimes with its model strength derived from principled specialization.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、入力を専門の専門家にルーティングすることで条件計算を可能にするが、これらの専門家は同一の帰納バイアスに依存し、表現の多様性を制限する。
この静的計算経路は、異なるタイプの推論を必要とし、特殊化と解釈可能性を制限する入力に対して非効率である。
本稿では,時間的推論のためのGRUエキスパートと,スパースなTop-1ゲーティング機構の下で静的抽象化のためのFFNNエキスパートを組み合わせることで,アーキテクチャの不均一性を活用する軽量なMoEアーキテクチャであるHectoを提案する。
3つの推論ベンチマーク(AG News、SST-2、HotpotQA)と回帰タスク(STS-B)で評価されたHectoは、独立した入力表現を受け取っているにもかかわらず、パフォーマンスにおいて均質なベースラインにマッチするか、あるいは密接に追随する。
大きなバッチサイズでは、Hectoはパフォーマンスの向上を示し、不均一なアーキテクチャをより効率的に最適化できる緩和された計算制約の恩恵を受けている。
アブレーションの結果、アーキテクチャの多様性は、多様な推論タスクにおけるヘクトの安定性と解釈可能性の源として分離される。
全体として、Hectoは条件計算の新しいベンチマークとしての地位を確立し、原則化された特殊化から派生したモデル強度を持つ低リソースなレシエーションにおける特殊推論のための原則化されたフレームワークを提供する。
関連論文リスト
- Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations [48.890534958441016]
本研究では,大規模MoEモデルにおける領域の特殊化と専門的冗長性について検討する。
本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。
DeepSeek-R1とDeepSeek-V3-0324の実験は、我々の手法が同じメモリ予算の下で同等の性能と2.99タイムのスループットを達成できることを示した。
論文 参考訳(メタデータ) (2025-04-09T11:34:06Z) - ExpertRAG: Efficient RAG with Mixture of Experts -- Optimizing Context Retrieval for Adaptive LLM Responses [0.0]
ExpertRAGは、Mixture-of-Experts (MoE)アーキテクチャとRetrieval Augmented Generation (RAG)を統合する新しい理論フレームワークである
本稿では,エキスパートルーティングと組み合わせた動的検索ゲーティング機構を提案し,モデルが外部知識ストアを選択的に参照したり,専門的な内部エキスパートに依存したりすることを可能にする。
本稿では,選択検索による計算コストの削減と,スパース専門家の利用によるキャパシティゲインの定量化を行う。
論文 参考訳(メタデータ) (2025-03-23T17:26:23Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - OMoE: Diversifying Mixture of Low-Rank Adaptation by Orthogonal Finetuning [3.8813502422318127]
低ランク適応(LoRA)のためのMixix-of-experts(MoE)アーキテクチャは、パラメータ効率の微調整(PEFT)における潜在的方向として出現している。
まず,バニラMoEの類似表現に専門家が崩壊し,モジュール設計の能力と計算効率が制限されることを示す定性解析を行った。
これらの知見に触発されて、直交混合(OMoE)を提案する。
提案手法は,バニラMOEモデルと比較して最小限の専門家を惹起するため,メモリボトルネックを緩和する。
論文 参考訳(メタデータ) (2025-01-17T09:27:08Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Gaussian Experts Selection using Graphical Models [7.530615321587948]
ローカル近似は、元のデータセットをサブセットに分割し、各サブセットでローカル専門家を訓練することで、時間の複雑さを低減する。
我々は、専門家間の条件依存を符号化するスパース精度行列を用いて、非方向性のグラフィカルモデルに関する文献からのテクニックを活用し、最も重要な専門家を選択する。
論文 参考訳(メタデータ) (2021-02-02T14:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。