Fugu-MT 論文翻訳(概要): No Need to Talk: Asynchronous Mixture of Language Models

論文の概要: No Need to Talk: Asynchronous Mixture of Language Models

arxiv url: http://arxiv.org/abs/2410.03529v1
Date: Fri, 4 Oct 2024 15:50:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 21:39:44.825630
Title: No Need to Talk: Asynchronous Mixture of Language Models
Title（参考訳）: 話す必要がない: 言語モデルの非同期混合
Authors: Anastasiia Filippova, Angelos Katharopoulos, David Grangier, Ronan Collobert,
Abstract要約: SmallTalk LMは、ほぼ非同期な方法で言語モデルの混合を訓練する革新的な方法である。本研究では,SmallTalk LM が,FLOP とほぼ同一の推論コストに対して,高密度モデルベースラインよりも有意に低いパープレキシティを実現することを示す。
参考スコア（独自算出の注目度）: 25.3581396758015
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce SmallTalk LM, an innovative method for training a mixture of language models in an almost asynchronous manner. Each model of the mixture specializes in distinct parts of the data distribution, without the need of high-bandwidth communication between the nodes training each model. At inference, a lightweight router directs a given sequence to a single expert, according to a short prefix. This inference scheme naturally uses a fraction of the parameters from the overall mixture model. Our experiments on language modeling demonstrate tha SmallTalk LM achieves significantly lower perplexity than dense model baselines for the same total training FLOPs and an almost identical inference cost. Finally, in our downstream evaluations we outperform the dense baseline on $75\%$ of the tasks.
Abstract（参考訳）: SmallTalk LM(SmallTalk LM)は,言語モデルの混合をほぼ非同期に訓練する革新的な手法である。混合物の各モデルは、各モデルを訓練するノード間での高帯域通信を必要とせず、データ分散の異なる部分に特化している。推測では、短いプレフィックスによると、軽量ルータが与えられたシーケンスを単一の専門家に指示する。この推論スキームは、全混合モデルからパラメータのごく一部を自然に利用する。言語モデリング実験では,SmallTalk LMは,同一の訓練FLOPとほぼ同一の推論コストに対して,高密度モデルベースラインよりも難易度が著しく低いことを実証した。最後に、下流の評価では、タスクの75セント%で密度の高いベースラインを上回ります。

関連論文リスト

One-Shot Federated Learning with Classifier-Free Diffusion Models [7.338353383261602]
ワンショットフェデレーション学習(OSFL)は、単一のコミュニケーションラウンドでグローバルモデルを構築することで、この問題に対処する。 OSCARはシンプルだが費用対効果の高いOSFLアプローチで、4つのデータセットで最先端を上回り、通信負荷を少なくとも99%削減する。
論文参考訳（メタデータ） (2025-02-12T15:23:29Z)
ModelMix: A New Model-Mixup Strategy to Minimize Vicinal Risk across Tasks for Few-scribble based Cardiac Segmentation [32.19827368497988]
そこで本研究では,モデルパラメータをモデルパラメータとして用いたスクリブル教師付きセグメンテーションに対する新しいアプローチを提案する。 ModelMixは、別々のエンコーダから畳み込みパラメータの凸組み合わせを使って仮想モデルを構築する。次に、教師なしとスクリブル付きの両方の方法で、タスク間のビジナルリスクを最小限に抑えるために、モデルセットを正規化します。
論文参考訳（メタデータ） (2024-06-19T05:58:11Z)
Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文参考訳（メタデータ） (2024-03-25T17:14:00Z)
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文参考訳（メタデータ） (2024-02-19T15:33:10Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文参考訳（メタデータ） (2023-05-24T04:22:26Z)
Scaling Laws for Generative Mixed-Modal Language Models [103.25737824352949]
個別のモダリティの貢献とそれら間の相互作用を統一する混合モードスケーリング法則について報告する。具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。また,訓練中に観察される4つの経験的現象,例えば,自然にモダリティを交互に交互に行う創発的コーディネート・アセット・スタイル・トレーニングを見出した。
論文参考訳（メタデータ） (2023-01-10T00:20:06Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Model ensemble instead of prompt fusion: a sample-specific knowledge transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。 SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文参考訳（メタデータ） (2022-10-23T01:33:16Z)
One-shot Federated Learning without Server-side Training [42.59845771101823]
クライアントとサーバ間の通信コストを削減する手段として,ワンショットのフェデレーション学習が人気を集めている。既存のワンショットFL法のほとんどは知識蒸留に基づいているが、蒸留に基づくアプローチでは追加のトレーニングフェーズが必要であり、公開されているデータセットや生成された擬似サンプルに依存する。本研究では,サーバサイドのトレーニングなしで,ローカルモデル上で1ラウンドのパラメータアグリゲーションを実行するという,新しいクロスサイロ設定について考察する。
論文参考訳（メタデータ） (2022-04-26T01:45:37Z)
Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文参考訳（メタデータ） (2022-04-15T17:19:41Z)
Multi-stage Pre-training over Simplified Multimodal Pre-training Models [35.644196343835674]
本稿では, 単語, 句, 文, 画像の粒度の異なる情報を用いて, モデルを段階的に事前訓練する多段階事前学習法を提案する。また、限られたコーパスから多種多様な知識を効率的に捉えるために、異なる段階における情報粒度に適したいくつかの事前学習タスクを設計する。実験結果から,本手法はすべての下流タスクにおいて元のLXMERTモデルに匹敵する性能を示し,画像テキスト検索タスクでは元のモデルよりも優れていた。
論文参考訳（メタデータ） (2021-07-22T03:35:27Z)
Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文参考訳（メタデータ） (2020-05-20T13:49:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。