論文の概要: OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models
- arxiv url: http://arxiv.org/abs/2402.01739v1
- Date: Mon, 29 Jan 2024 12:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:01:12.949214
- Title: OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models
- Title(参考訳): openmoe: エキスパートのオープンな混合言語モデルへの取り組み
- Authors: Fuzhao Xue, Zian Zheng, Yao Fu, Jinjie Ni, Zangwei Zheng, Wangchunshu
Zhou, Yang You
- Abstract要約: OpenMoEは、完全にオープンソースで再現可能なデコーダのみのMixture-of-Experts (MoE)ベースの大規模言語モデル(LLM)のシリーズである。
本研究は,MoEをベースとしたLLMの方が高密度LLMよりも良好なコスト効率のトレードオフを提供できることを確認した。
MoEモデルにおけるルーティング決定は、主にトークンIDに基づいており、最小限のコンテキスト関連性がある。
- 参考スコア(独自算出の注目度): 47.09761045053577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To help the open-source community have a better understanding of
Mixture-of-Experts (MoE) based large language models (LLMs), we train and
release OpenMoE, a series of fully open-sourced and reproducible decoder-only
MoE LLMs, ranging from 650M to 34B parameters and trained on up to over 1T
tokens. Our investigation confirms that MoE-based LLMs can offer a more
favorable cost-effectiveness trade-off than dense LLMs, highlighting the
potential effectiveness for future LLM development.
One more important contribution of this study is an in-depth analysis of the
routing mechanisms within our OpenMoE models, leading to three significant
findings: Context-Independent Specialization, Early Routing Learning, and
Drop-towards-the-End. We discovered that routing decisions in MoE models are
predominantly based on token IDs, with minimal context relevance. The
token-to-expert assignments are determined early in the pre-training phase and
remain largely unchanged. This imperfect routing can result in performance
degradation, particularly in sequential tasks like multi-turn conversations,
where tokens appearing later in a sequence are more likely to be dropped.
Finally, we rethink our design based on the above-mentioned observations and
analysis. To facilitate future MoE LLM development, we propose potential
strategies for mitigating the issues we found and further improving
off-the-shelf MoE LLM designs.
- Abstract(参考訳): オープンソースコミュニティがMixture-of-Experts(LLM)ベースの大規模言語モデル(LLM)をよりよく理解できるように、OpenMoEをトレーニングしリリースします。
本研究は,MoEをベースとしたLCMが高密度LCMよりも良好なコスト効率トレードオフを提供できることを確認し,今後のLCM開発の有効性を明らかにする。
この研究のもうひとつの重要な貢献は、OpenMoEモデル内のルーティングメカニズムの詳細な分析であり、コンテキスト非依存のスペシャライゼーション、早期ルーティング学習、Drop-towards-the-Endの3つの重要な発見につながっている。
MoEモデルのルーティング決定は、主にトークンIDに基づいており、最小限のコンテキスト関連性があることがわかった。
トークン・ツー・エキスパートの割り当てはトレーニング前の段階で決定され、ほとんど変わらない。
この不完全なルーティングは、特にマルチターン会話のようなシーケンシャルなタスクにおいてパフォーマンスが低下する可能性がある。
最後に、上記の観察と分析に基づいて設計を再考する。
今後のMoE LLM開発を容易にするため,我々は,我々が発見した問題を緩和し,市販のMoE LLMの設計をさらに改善するための潜在的戦略を提案する。
関連論文リスト
- Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Generative Multimodal Entity Linking [26.570627753768605]
マルチモーダルエンティティリンク(英: Multimodal Entity Linking、MEL)は、知識ベース(ウィキペディアなど)からの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
GEMELは,大規模言語モデル(LLM)をベースとした,シンプルで効果的な生成型マルチモーダルエンティティリンクフレームワークである。
モデルパラメータの0.3%しか微調整されていないため、GEMELは2つの確立されたMELデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。