論文の概要: Scaling Laws for Generative Mixed-Modal Language Models
- arxiv url: http://arxiv.org/abs/2301.03728v1
- Date: Tue, 10 Jan 2023 00:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:20:30.907854
- Title: Scaling Laws for Generative Mixed-Modal Language Models
- Title(参考訳): 生成混合モーダル言語モデルのスケーリング法則
- Authors: Armen Aghajanyan, Lili Yu, Alexis Conneau, Wei-Ning Hsu, Karen
Hambardzumyan, Susan Zhang, Stephen Roller, Naman Goyal, Omer Levy, Luke
Zettlemoyer
- Abstract要約: 個別のモダリティの貢献とそれら間の相互作用を統一する混合モードスケーリング法則について報告する。
具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。
また,訓練中に観察される4つの経験的現象,例えば,自然にモダリティを交互に交互に行う創発的コーディネート・アセット・スタイル・トレーニングを見出した。
- 参考スコア(独自算出の注目度): 103.25737824352949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative language models define distributions over sequences of tokens that
can represent essentially any combination of data modalities (e.g., any
permutation of image tokens from VQ-VAEs, speech tokens from HuBERT, BPE tokens
for language or code, and so on). To better understand the scaling properties
of such mixed-modal models, we conducted over 250 experiments using seven
different modalities and model sizes ranging from 8 million to 30 billion,
trained on 5-100 billion tokens. We report new mixed-modal scaling laws that
unify the contributions of individual modalities and the interactions between
them. Specifically, we explicitly model the optimal synergy and competition due
to data and model size as an additive term to previous uni-modal scaling laws.
We also find four empirical phenomena observed during the training, such as
emergent coordinate-ascent style training that naturally alternates between
modalities, guidelines for selecting critical hyper-parameters, and connections
between mixed-modal competition and training stability. Finally, we test our
scaling law by training a 30B speech-text model, which significantly
outperforms the corresponding unimodal models. Overall, our research provides
valuable insights into the design and training of mixed-modal generative
models, an important new class of unified models that have unique
distributional properties.
- Abstract(参考訳): 生成言語モデルは、本質的にデータモダリティ(VQ-VAEからの任意の画像トークンの置換、HuBERTからの音声トークン、言語やコードのBPEトークンなど)の組み合わせを表現することができるトークンの列上の分布を定義する。
このような混合モーダルモデルのスケーリング特性をよりよく理解するために,8億から300億までの7つの異なるモーダルとモデルサイズを用いて,5100億トークンでトレーニングした250以上の実験を行った。
個々のモダリティとそれらの相互作用の寄与を統一する新しい混合モーダルスケーリング則を報告する。
具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。
また, 学習中に観察された4つの経験的現象, 自然にモダリティを交互に行う創発的座標・アセント型トレーニング, 臨界ハイパーパラメータ選択ガイドライン, 混合モーダル競争とトレーニング安定性の関連を見出した。
最後に、30bの音声テキストモデルをトレーニングしてスケーリング法則をテストし、対応するユニモーダルモデルを大幅に上回らせます。
全体として、我々の研究は、一意な分布特性を持つ統一モデルの重要な新しいクラスである混合モーダル生成モデルの設計と訓練に関する貴重な洞察を提供する。
関連論文リスト
- No Need to Talk: Asynchronous Mixture of Language Models [25.3581396758015]
SmallTalk LMは、ほぼ非同期な方法で言語モデルの混合を訓練する革新的な方法である。
本研究では,SmallTalk LM が,FLOP とほぼ同一の推論コストに対して,高密度モデルベースラインよりも有意に低いパープレキシティを実現することを示す。
論文 参考訳(メタデータ) (2024-10-04T15:50:10Z) - Explore the Limits of Omni-modal Pretraining at Scale [21.82148059125346]
マルチモーダルコンテキスト(MiCo)という,スケーラブルな事前学習パラダイムを提案する。
MiCoは、事前トレーニングプロセスにおいて、モデルパラメータとともに、モダリティとデータの量をスケールアップすることができる。
我々のモデルは、最先端のパフォーマンスのために37の新たなレコードを作成します。
論文 参考訳(メタデータ) (2024-06-13T17:59:53Z) - DynaMo: Accelerating Language Model Inference with Dynamic Multi-Token Sampling [51.055580277828]
ネット推論時間を短縮するマルチトークン予測言語モデルであるDynaMoを提案する。
我々のモデルは、予測された関節確率分布に対する信頼度に基づいて複数のトークンを予測する。
また、テキスト生成品質を向上させるために、推定結合確率を高める新しい方法を提案する。
論文 参考訳(メタデータ) (2024-05-01T22:17:57Z) - Collaborative decoding of critical tokens for boosting factuality of
large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。
世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。
我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-28T01:53:37Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - OCHADAI-KYODAI at SemEval-2021 Task 1: Enhancing Model Generalization
and Robustness for Lexical Complexity Prediction [8.066349353140819]
単語とマルチワード表現の語彙的複雑性を予測するアンサンブルモデルを提案する。
モデルは、目的語またはMWEandの文を入力として受信し、その複雑性スコアを出力する。
本モデルは,両サブタスクの上位10システムにランクインした。
論文 参考訳(メタデータ) (2021-05-12T09:27:46Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。