Fugu-MT 論文翻訳(概要): OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models

論文の概要: OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models

arxiv url: http://arxiv.org/abs/2402.01739v2
Date: Wed, 27 Mar 2024 10:21:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 22:03:50.964578
Title: OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models
Title（参考訳）: OpenMoE:Open Mixture-of-Experts言語モデルに対する初期の取り組み
Authors: Fuzhao Xue, Zian Zheng, Yao Fu, Jinjie Ni, Zangwei Zheng, Wangchunshu Zhou, Yang You,
Abstract要約: OpenMoEは、完全にオープンソースで再現可能なデコーダのみのMixture-of-Experts (MoE)ベースの大規模言語モデル(LLM)のシリーズである。本研究は,MoEをベースとしたLLMの方が高密度LLMよりも良好なコスト効率のトレードオフを提供できることを確認した。 MoEモデルにおけるルーティング決定は、主にトークンIDに基づいており、最小限のコンテキスト関連性がある。
参考スコア（独自算出の注目度）: 44.848642930797155
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To help the open-source community have a better understanding of Mixture-of-Experts (MoE) based large language models (LLMs), we train and release OpenMoE, a series of fully open-sourced and reproducible decoder-only MoE LLMs, ranging from 650M to 34B parameters and trained on up to over 1T tokens. Our investigation confirms that MoE-based LLMs can offer a more favorable cost-effectiveness trade-off than dense LLMs, highlighting the potential effectiveness for future LLM development. One more important contribution of this study is an in-depth analysis of the routing mechanisms within our OpenMoE models, leading to three significant findings: Context-Independent Specialization, Early Routing Learning, and Drop-towards-the-End. We discovered that routing decisions in MoE models are predominantly based on token IDs, with minimal context relevance. The token-to-expert assignments are determined early in the pre-training phase and remain largely unchanged. This imperfect routing can result in performance degradation, particularly in sequential tasks like multi-turn conversations, where tokens appearing later in a sequence are more likely to be dropped. Finally, we rethink our design based on the above-mentioned observations and analysis. To facilitate future MoE LLM development, we propose potential strategies for mitigating the issues we found and further improving off-the-shelf MoE LLM designs.
Abstract（参考訳）: オープンソースコミュニティがMixture-of-Experts(LLM)ベースの大規模言語モデル(LLM)をよりよく理解できるように、OpenMoEをトレーニングしリリースします。本研究は,MoEをベースとしたLCMが高密度LCMよりも良好なコスト効率のトレードオフを提供できることを確認し,今後のLCM開発の有効性を浮き彫りにする。この研究のもうひとつの重要な貢献は、OpenMoEモデル内のルーティングメカニズムの詳細な分析であり、コンテキスト非依存のスペシャライゼーション、早期ルーティング学習、Drop-towards-the-Endの3つの重要な発見につながっている。 MoEモデルにおけるルーティング決定は、主にトークンIDに基づいており、最小限のコンテキスト関連性があることがわかった。トークン・ツー・エキスパートの割り当ては事前訓練フェーズの早い段階で決定され、ほとんど変わらないままである。この不完全なルーティングは、特にマルチターン会話のようなシーケンシャルなタスクではパフォーマンスが低下する可能性がある。最後に、上記の観察と分析に基づいて設計を再考する。今後のMoE LLM開発を容易にするため,我々は,我々が発見した問題を緩和し,市販のMoE LLMの設計をさらに改善するための潜在的戦略を提案する。

関連論文リスト

Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
7B Fully Open Source Moxin-LLM -- From Pretraining to GRPO-based Reinforcement Learning Enhancement [42.10844666788254]
Moxin 7Bは、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に準拠した、完全にオープンソースのLarge Language Models (LLM) である。トレーニング済みのコードと設定、トレーニングと微調整のデータセット、中間および最終チェックポイントをリリースします。実験により, ゼロショット評価, 少数ショット評価, CoT評価など, 各種評価において, 優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-08T02:01:46Z)
SEUF: Is Unlearning One Expert Enough for Mixture-of-Experts LLMs? [35.237427998489785]
我々は,Mixture-of-Experts (MoE) LLMのためのSEUF(Selected-Expert Unlearning Framework)を提案する。専門家の帰属を通じて、未学習は特定の知識に対する最も活発な専門家に集中する。 SEUFは様々な標準のアンラーニングアルゴリズムと互換性がある。
論文参考訳（メタデータ） (2024-11-27T22:46:08Z)
Large Language Models Can Self-Improve in Long-context Reasoning [100.52886241070907]
大規模言語モデル(LLM)は、長いコンテキストの処理においてかなりの進歩を遂げているが、それでも長いコンテキストの推論に苦慮している。我々はこの目的のために特別に設計されたアプローチである我々の提案する。人類の専門家や先進的なモデルによるデータに依存する従来のアプローチと比べて優れたパフォーマンスを達成しています
論文参考訳（メタデータ） (2024-11-12T19:53:00Z)
A Survey on Mixture of Experts [11.801185267119298]
モデルキャパシティを最小限のオーバーヘッドでスケールアップする有効な方法として、専門家(MoE)の混在が現れた。 MoEは、最小限のオーバーヘッドでモデルキャパシティを実質的にスケールアップする効果的な方法として登場した。この調査は、このギャップを埋めることを目指しており、MoEの複雑さを探求する研究者にとって不可欠なリソースとなっている。
論文参考訳（メタデータ） (2024-06-26T16:34:33Z)
MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。 MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文参考訳（メタデータ） (2024-05-29T17:57:16Z)
Found in the Middle: How Language Models Use Long Contexts Better via Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。 (Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。 LLMはコンテキストの中央に位置する関連情報を扱う。
論文参考訳（メタデータ） (2024-03-05T04:58:37Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。