論文の概要: MambaFormer: Token-Level Guided Routing Mixture-of-Experts for Accurate and Efficient Clinical Assistance
- arxiv url: http://arxiv.org/abs/2601.01260v1
- Date: Sat, 03 Jan 2026 19:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.149762
- Title: MambaFormer: Token-Level Guided Routing Mixture-of-Experts for Accurate and Efficient Clinical Assistance
- Title(参考訳): MambaFormer:Token-Level Guided Routing Mixture-of-Experts for accurate and Efficient Clinical Assistance
- Authors: Hamad Khan, Saddam Hussain Khan,
- Abstract要約: 医療質問応答(QA)と臨床支援のためのLLM-based Hybrid Mixture-of-Experts (MoE) フレームワークを提案する。
MambaFormerは、トークンレベルの動的ルーティングをカスタマイズされたTransformerエキスパートに実行する軽量なゲーティングメカニズムを使用している。
提案されたMambaFormerは(BERTScore = 0.9180)超低レイテンシ(0.077 s)で性能が向上し、T5-Large上で24.4のスピードアップを実現した。
- 参考スコア(独自算出の注目度): 0.7857499581522376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The deployment of large language models (LLMs) in real-world clinical applications is constrained by the fundamental trade-off between computational cost and the efficiency of linear-time models. To address this, we propose an LLM-based MambaFormer hybrid Mixture-of-Experts (MoE) framework for efficient medical question-answering (QA) and clinical assistance. The MambaFormer employs a lightweight gating mechanism that performs token-level dynamic routing to a customized Transformer expert (ET5) for short, complex queries or to a State Space Model expert (EMamba) for long, high-throughput sequences. The customized EMamba and ET5 models are tailored to accommodate input sequence dimensionality, embedding structure, sequence length, and target-specific output heads, and are fine-tuned through transfer learning on a new, custom-designed DentalQA dataset. Moreover, intelligent routing decisions are driven by the contextual complexity of token embeddings, normalized sequence length, and domain-aware features, thereby enforcing a Pareto-optimal trade-off between inference latency and prediction accuracy. Furthermore, a novel utility-guided multi-objective loss jointly optimizes decisions, router parameters, routing behavior, expert utilization, and computational cost by adaptively regulating token-level expert activation. Finally, the proposed MambaFormer is cross-validated (holdout) for medical QA on the new, custom-designed DentalQA and PubMedQA datasets and compared with state-of-the-art techniques. The proposed MambaFormer outperforms (BERTScore = 0.9180) with ultra-low latency (0.077 s), delivering a 24.4 speedup over T5-Large and establishing a scalable solution for resource-constrained clinical deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)の実際の臨床応用への展開は、計算コストと線形時間モデルの効率の基本的なトレードオフによって制約される。
そこで我々は,LLMをベースとしたMambaFormer hybrid Mixture-of-Experts (MoE) フレームワークを提案する。
MambaFormerは軽量なゲーティング機構を採用しており、短い複雑なクエリのためにカスタマイズされたTransformer Expert (ET5) や、長い高スループットシーケンスのためにState Space Model Expert (EMamba) にトークンレベルの動的ルーティングを実行する。
カスタマイズされたEMambaとET5モデルは、入力シーケンスの寸法、埋め込み構造、シーケンス長、ターゲット固有の出力ヘッドに対応するように調整され、新しいカスタムデザインの歯科QAデータセットで転送学習によって微調整される。
さらに、インテリジェントなルーティング決定は、トークン埋め込み、正規化シーケンス長、ドメイン認識機能のコンテキスト的複雑さによって駆動されるため、推論レイテンシと予測精度のパレート最適トレードオフが実施される。
さらに、新しいユーティリティ誘導多目的損失は、トークンレベルのエキスパートアクティベーションを適応的に調整することで、決定、ルータパラメータ、ルーティング動作、専門家利用、計算コストを共同で最適化する。
最後に、提案されたMambaFormerは、新しいカスタムデザインの歯科用QAデータセットとPubMedQAデータセットで医療用QAをクロスバリデーション(ホールドアウト)し、最先端技術と比較する。
提案されたMambaFormerは、超低レイテンシ(0.077秒)で、T5-Large上で24.4のスピードアップを実現し、リソース制約のある臨床展開のためのスケーラブルなソリューションを確立した(BERTScore = 0.9180)。
関連論文リスト
- Trained Mamba Emulates Online Gradient Descent in In-Context Linear Regression [90.93281146423378]
Mambaは、Long-Sequence Modelingのための線形複雑性を持つ効率的なTransformer代替品である。
最近の実証研究は、Mambaのテキスト内学習(ICL)がTransformersと競合していることを示している。
本稿では,線形回帰 ICL タスクにおける Mamba のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2025-09-28T09:48:49Z) - DYNAMAX: Dynamic computing for Transformers and Mamba based architectures [2.5739385355356714]
アーリーエグジット(EE)は、データサンプルに対する十分な予測信頼が達成されれば、推論を動的に終了させることで、計算コストとレイテンシを低減するための有望なアプローチを提供する。
DYNAMAXは、初期の出口機構のためにMambaアーキテクチャのユニークな特性を利用する最初のフレームワークである。
論文 参考訳(メタデータ) (2025-04-29T16:38:15Z) - State-space models are accurate and efficient neural operators for dynamical systems [23.59679792068364]
物理インフォームド・機械学習(PIML)は、力学系を予測する古典的な手法の代替として期待されている。
リカレントニューラルネットワーク(RNN)、トランスフォーマー、ニューラル演算子など、既存のモデルでは、長時間の統合、長距離依存性、カオスダイナミクス、外挿といった課題に直面している。
本稿では,Mambaで実装された動的システム演算子学習のための状態空間モデルを提案する。
論文 参考訳(メタデータ) (2024-09-05T03:57:28Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Mamba-Spike: Enhancing the Mamba Architecture with a Spiking Front-End for Efficient Temporal Data Processing [4.673285689826945]
Mamba-Spikeは、スパイクするフロントエンドとMambaのバックボーンを統合して、効率的な時間的データ処理を実現する新しいニューロモルフィックアーキテクチャである。
このアーキテクチャは、最先端のベースラインを一貫して上回り、高い精度、低いレイテンシ、エネルギー効率の向上を実現している。
論文 参考訳(メタデータ) (2024-08-04T14:10:33Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
実世界の長距離NLPタスクに対する実験では、DeciMambaはトレーニング中に見られるものよりも、コンテキスト長に格段に長く当てはまることが示されている。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。