論文の概要: THOR-MoE: Hierarchical Task-Guided and Context-Responsive Routing for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2505.14173v1
- Date: Tue, 20 May 2025 10:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.06322
- Title: THOR-MoE: Hierarchical Task-Guided and Context-Responsive Routing for Neural Machine Translation
- Title(参考訳): thOR-MoE:ニューラルネットワーク翻訳のための階層型タスクガイドとコンテキスト応答型ルーティング
- Authors: Yunlong Liang, Fandong Meng, Jie Zhou,
- Abstract要約: 階層型タスク誘導型およびコンテキスト応答型ルーティングポリシでMoEを武装するTHOR-MoEを提案する。
THOR-MoEは、既存のTop-$citeshazeer 2017やTop-$$citehuang-etal-2024-harderルーティングスキームと互換性のあるプラグインモジュールとして動作する。
例えば、バニラTop-$$citehuang-etal-2024-harderルーティングと比較して、コンテキスト認識の方法は22%未満の活性パラメータで平均0.75 BLEUの改善を達成することができる。
- 参考スコア(独自算出の注目度): 80.25152370613186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sparse Mixture-of-Experts (MoE) has achieved significant progress for neural machine translation (NMT). However, there exist two limitations in current MoE solutions which may lead to sub-optimal performance: 1) they directly use the task knowledge of NMT into MoE (\emph{e.g.}, domain/linguistics-specific knowledge), which are generally unavailable at practical application and neglect the naturally grouped domain/linguistic properties; 2) the expert selection only depends on the localized token representation without considering the context, which fully grasps the state of each token in a global view. To address the above limitations, we propose THOR-MoE via arming the MoE with hierarchical task-guided and context-responsive routing policies. Specifically, it 1) firstly predicts the domain/language label and then extracts mixed domain/language representation to allocate task-level experts in a hierarchical manner; 2) injects the context information to enhance the token routing from the pre-selected task-level experts set, which can help each token to be accurately routed to more specialized and suitable experts. Extensive experiments on multi-domain translation and multilingual translation benchmarks with different architectures consistently demonstrate the superior performance of THOR-MoE. Additionally, the THOR-MoE operates as a plug-and-play module compatible with existing Top-$k$~\cite{shazeer2017} and Top-$p$~\cite{huang-etal-2024-harder} routing schemes, ensuring broad applicability across diverse MoE architectures. For instance, compared with vanilla Top-$p$~\cite{huang-etal-2024-harder} routing, the context-aware manner can achieve an average improvement of 0.75 BLEU with less than 22\% activated parameters on multi-domain translation tasks.
- Abstract(参考訳): sparse Mixture-of-Experts (MoE) はニューラルマシン翻訳(NMT)において大きな進歩を遂げた。
しかし、現在のMoEソリューションには、以下の2つの制限がある。
1) NMT のタスク知識を直接 MoE (\emph{e g }, domain/linguistics-specific knowledge) に利用する。
2) 専門家の選択は,グローバルな視点で各トークンの状態を完全に把握するコンテキストを考慮せずに,局所的なトークン表現にのみ依存する。
上記の制限に対処するため,階層型タスク誘導型およびコンテキスト応答型ルーティングポリシでMoEを武装するTHOR-MoEを提案する。
具体的には
1)まず、ドメイン/言語ラベルを予測し、その後、混合ドメイン/言語表現を抽出して、階層的な方法でタスクレベルのエキスパートを割り当てる。
2) 予め選択したタスクレベルのエキスパートセットからトークンのルーティングを強化するために,コンテキスト情報を注入することで,それぞれのトークンをより専門的で適切な専門家に正確にルーティングするのに役立つ。
マルチドメイン翻訳と異なるアーキテクチャの多言語翻訳ベンチマークに関する大規模な実験は、THOR-MoEの優れた性能を一貫して示している。
さらにTHOR-MoEは、既存のTop-$k$~\cite{shazeer2017}とTop-$$~\cite{huang-etal-2024-harder}ルーティングスキームと互換性のあるプラグイン・アンド・プレイモジュールとして動作し、様々なMoEアーキテクチャの幅広い適用性を保証する。
例えば、バニラのTop-$p$~\cite{huang-etal-2024-harder}ルーティングと比較すると、コンテキスト認識方式は、マルチドメイン翻訳タスクにおいて22\%未満の活性パラメータを持つ0.75 BLEUの平均的な改善を達成できる。
関連論文リスト
- Beyond Vanilla Fine-Tuning: Leveraging Multistage, Multilingual, and Domain-Specific Methods for Low-Resource Machine Translation [1.9639956888747314]
本稿では,大規模言語モデル(msLLM)の適応のための2つのアプローチを提案することによって,人工知能に寄与する。
工学的な応用として、これらの手法は、ドメイン固有の極低リソース設定において、シンハラ、タミル、英語(6つの言語対)のNTTシステムで実装される。
実験の結果,これらの手法は,標準の単一段階微調整ベースラインに比べて平均+1.47バイリンガル評価アンダースタディ(BLEU)スコアで翻訳性能を向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-28T16:30:28Z) - Glider: Global and Local Instruction-Driven Expert Router [83.785832410832]
モデルMoErging」手法は、保持タスクのパフォーマンスを犠牲にして、未確認タスクへの一般化を優先する。
マルチスケールルーティング機構を統合したGLIDER(Global and Local Instruction Driven Expert Router)を提案する。
GLIDERは、ホールドアウトタスクの強い一般化を維持しながら、ホールドイン性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:14Z) - Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Dynamic Language Group-Based MoE: Enhancing Code-Switching Speech Recognition with Hierarchical Routing [8.36121848069236]
Mixture of Experts (MoE)は、コードスイッチング音声認識(CS-ASR)タスクを扱うための有望なアプローチである。
CS-ASRタスクを効果的に処理できる動的言語グループベースのMoEであるDLG-MoEを提案する。
さまざまなトップ$の推論とストリーミング機能をサポートし、モデルパラメータを柔軟に訓練してモノリンガルなサブモデルを得ることもできる。
論文 参考訳(メタデータ) (2024-07-26T08:03:07Z) - One Prompt is not Enough: Automated Construction of a Mixture-of-Expert Prompts [110.94724216491753]
大規模言語モデル(LLM)は、言語命令やコンテキスト内デモによって、強力な一般化能力を示す。
命令設計を自動化するために様々な手法が検討されてきたが、探索されたプロンプトを1つの命令に制限した。
我々はMixture-of-Expertパラダイムを採用し、問題空間を一連のサブリージョンに分割する。
地域ごとに専門的な専門家を構築するための2段階のプロセスが開発されている。
専門家1人当たりの命令の地域ベースの共同探索は、それに割り当てられたデモを補完し、相乗効果をもたらす。
論文 参考訳(メタデータ) (2024-06-28T23:05:08Z) - U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF [10.81723269312202]
Mixture-of-Experts (MoE) は、より大きく、より有能な言語モデルへのエネルギー効率の良い経路として提案されている。
提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T08:34:21Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。