論文の概要: Mixture of Parrots: Experts improve memorization more than reasoning
- arxiv url: http://arxiv.org/abs/2410.19034v1
- Date: Thu, 24 Oct 2024 17:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:18.813113
- Title: Mixture of Parrots: Experts improve memorization more than reasoning
- Title(参考訳): パロットの混合:専門家は推論よりも記憶を改善する
- Authors: Samy Jelassi, Clara Mohri, David Brandfonbrener, Alex Gu, Nikhil Vyas, Nikhil Anand, David Alvarez-Melis, Yuanzhi Li, Sham M. Kakade, Eran Malach,
- Abstract要約: 専門家の数が増えるにつれて、推論能力が飽和している間に記憶性能が一貫して向上することを示す。
専門家の増加は知識集約的なタスクの解決に役立ちますが、推論タスクには同じようなメリットが得られません。
- 参考スコア(独自算出の注目度): 72.445819694797
- License:
- Abstract: The Mixture-of-Experts (MoE) architecture enables a significant increase in the total number of model parameters with minimal computational overhead. However, it is not clear what performance tradeoffs, if any, exist between MoEs and standard dense transformers. In this paper, we show that as we increase the number of experts (while fixing the number of active parameters), the memorization performance consistently increases while the reasoning capabilities saturate. We begin by analyzing the theoretical limitations of MoEs at reasoning. We prove that there exist graph problems that cannot be solved by any number of experts of a certain width; however, the same task can be easily solved by a dense model with a slightly larger width. On the other hand, we find that on memory-intensive tasks, MoEs can effectively leverage a small number of active parameters with a large number of experts to memorize the data. We empirically validate these findings on synthetic graph problems and memory-intensive closed book retrieval tasks. Lastly, we pre-train a series of MoEs and dense transformers and evaluate them on commonly used benchmarks in math and natural language. We find that increasing the number of experts helps solve knowledge-intensive tasks, but fails to yield the same benefits for reasoning tasks.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、計算オーバーヘッドが最小限であるモデルパラメータの総数を大幅に増加させることができる。
しかし、MoEと標準密度変換器の間にどのような性能トレードオフがあるのかは明らかになっていない。
本稿では,専門家数の増加(アクティブパラメータ数の修正)に伴い,推論能力の飽和とともに記憶性能が一定に向上することを示す。
まず、推論におけるMoEsの理論的限界を分析することから始める。
特定の幅のエキスパート数では解けないグラフ問題が存在することが証明されているが、少し大きな幅を持つ密度のモデルでは、同じタスクが容易に解ける。
一方、メモリ集約的なタスクでは、MoEsは少数のアクティブパラメータを効果的に活用でき、多くの専門家がデータを記憶することができる。
合成グラフ問題とメモリ集約型クローズドブック検索タスクについて,これらの知見を実証的に検証した。
最後に、一連のMoEと高密度変換器を事前訓練し、それらを数学や自然言語の一般的なベンチマークで評価する。
専門家の増加は知識集約的なタスクの解決に役立ちますが、推論タスクには同じようなメリットが得られません。
関連論文リスト
- Beyond Parameter Count: Implicit Bias in Soft Mixture of Experts [44.09546603624385]
ソフトモエの専門専門化について紹介する。
小さな専門家がたくさんいる場合、アーキテクチャは暗黙的に偏りがあり、専門的な専門家のサブセットを効率的に近似できることを示している。
論文 参考訳(メタデータ) (2024-09-02T00:39:00Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
大規模言語モデル(LLM)は、実際に目に見えないタスクに一般化するか、大量の事前学習データを記憶することに依存するかという議論を引き起こしている。
本稿では,LLMの出力確率と事前学習データ頻度との相関を計測する,メモリ化,分散メモリ化という拡張された概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 暗記がより大きな役割を果たすことを示した。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Multi-Task Dense Prediction via Mixture of Low-Rank Experts [35.11968315125389]
MLoRE(Mixture-of-Low-Rank-Experts)と呼ばれる,マルチタスクの高密度予測のためのデコーダに着目した新しい手法を提案する。
グローバルなタスク関係をモデル化するために、MLoREは元のMoE構造に汎用的な畳み込みパスを追加し、各タスク機能は、明示的なパラメータ共有のためにこのパスを通ることができる。
実験の結果,MLoREは従来のすべてのメトリクスの最先端手法に比べて優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2024-03-26T14:40:17Z) - LORS: Low-rank Residual Structure for Parameter-Efficient Network
Stacking [37.24438285812178]
LORSにより、スタックされたモジュールがパラメータの大部分を共有できるようになり、モジュールごとのユニークな要素の数が非常に少なくなり、完全に異なるモジュールを使用するパフォーマンスを上回ります。
問合せ型オブジェクト検出器の積み重ねデコーダに適用し,MS COCOデータセットの広範な実験を行い,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-03-07T08:10:59Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。