論文の概要: No Need to Talk: Asynchronous Mixture of Language Models
- arxiv url: http://arxiv.org/abs/2410.03529v1
- Date: Fri, 4 Oct 2024 15:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 21:39:44.825630
- Title: No Need to Talk: Asynchronous Mixture of Language Models
- Title(参考訳): 話す必要がない: 言語モデルの非同期混合
- Authors: Anastasiia Filippova, Angelos Katharopoulos, David Grangier, Ronan Collobert,
- Abstract要約: SmallTalk LMは、ほぼ非同期な方法で言語モデルの混合を訓練する革新的な方法である。
本研究では,SmallTalk LM が,FLOP とほぼ同一の推論コストに対して,高密度モデルベースラインよりも有意に低いパープレキシティを実現することを示す。
- 参考スコア(独自算出の注目度): 25.3581396758015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SmallTalk LM, an innovative method for training a mixture of language models in an almost asynchronous manner. Each model of the mixture specializes in distinct parts of the data distribution, without the need of high-bandwidth communication between the nodes training each model. At inference, a lightweight router directs a given sequence to a single expert, according to a short prefix. This inference scheme naturally uses a fraction of the parameters from the overall mixture model. Our experiments on language modeling demonstrate tha SmallTalk LM achieves significantly lower perplexity than dense model baselines for the same total training FLOPs and an almost identical inference cost. Finally, in our downstream evaluations we outperform the dense baseline on $75\%$ of the tasks.
- Abstract(参考訳): SmallTalk LM(SmallTalk LM)は,言語モデルの混合をほぼ非同期に訓練する革新的な手法である。
混合物の各モデルは、各モデルを訓練するノード間での高帯域通信を必要とせず、データ分散の異なる部分に特化している。
推測では、短いプレフィックスによると、軽量ルータが与えられたシーケンスを単一の専門家に指示する。
この推論スキームは、全混合モデルからパラメータのごく一部を自然に利用する。
言語モデリング実験では,SmallTalk LMは,同一の訓練FLOPとほぼ同一の推論コストに対して,高密度モデルベースラインよりも難易度が著しく低いことを実証した。
最後に、下流の評価では、タスクの75セント%で密度の高いベースラインを上回ります。
関連論文リスト
- ModelMix: A New Model-Mixup Strategy to Minimize Vicinal Risk across Tasks for Few-scribble based Cardiac Segmentation [32.19827368497988]
そこで本研究では,モデルパラメータをモデルパラメータとして用いたスクリブル教師付きセグメンテーションに対する新しいアプローチを提案する。
ModelMixは、別々のエンコーダから畳み込みパラメータの凸組み合わせを使って仮想モデルを構築する。
次に、教師なしとスクリブル付きの両方の方法で、タスク間のビジナルリスクを最小限に抑えるために、モデルセットを正規化します。
論文 参考訳(メタデータ) (2024-06-19T05:58:11Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Scaling Laws for Generative Mixed-Modal Language Models [103.25737824352949]
個別のモダリティの貢献とそれら間の相互作用を統一する混合モードスケーリング法則について報告する。
具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。
また,訓練中に観察される4つの経験的現象,例えば,自然にモダリティを交互に交互に行う創発的コーディネート・アセット・スタイル・トレーニングを見出した。
論文 参考訳(メタデータ) (2023-01-10T00:20:06Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Multi-stage Pre-training over Simplified Multimodal Pre-training Models [35.644196343835674]
本稿では, 単語, 句, 文, 画像の粒度の異なる情報を用いて, モデルを段階的に事前訓練する多段階事前学習法を提案する。
また、限られたコーパスから多種多様な知識を効率的に捉えるために、異なる段階における情報粒度に適したいくつかの事前学習タスクを設計する。
実験結果から,本手法はすべての下流タスクにおいて元のLXMERTモデルに匹敵する性能を示し,画像テキスト検索タスクでは元のモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-07-22T03:35:27Z) - Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-20T13:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。