論文の概要: Scaling Laws for Generative Mixed-Modal Language Models
- arxiv url: http://arxiv.org/abs/2301.03728v1
- Date: Tue, 10 Jan 2023 00:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:20:30.907854
- Title: Scaling Laws for Generative Mixed-Modal Language Models
- Title(参考訳): 生成混合モーダル言語モデルのスケーリング法則
- Authors: Armen Aghajanyan, Lili Yu, Alexis Conneau, Wei-Ning Hsu, Karen
Hambardzumyan, Susan Zhang, Stephen Roller, Naman Goyal, Omer Levy, Luke
Zettlemoyer
- Abstract要約: 個別のモダリティの貢献とそれら間の相互作用を統一する混合モードスケーリング法則について報告する。
具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。
また,訓練中に観察される4つの経験的現象,例えば,自然にモダリティを交互に交互に行う創発的コーディネート・アセット・スタイル・トレーニングを見出した。
- 参考スコア(独自算出の注目度): 103.25737824352949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative language models define distributions over sequences of tokens that
can represent essentially any combination of data modalities (e.g., any
permutation of image tokens from VQ-VAEs, speech tokens from HuBERT, BPE tokens
for language or code, and so on). To better understand the scaling properties
of such mixed-modal models, we conducted over 250 experiments using seven
different modalities and model sizes ranging from 8 million to 30 billion,
trained on 5-100 billion tokens. We report new mixed-modal scaling laws that
unify the contributions of individual modalities and the interactions between
them. Specifically, we explicitly model the optimal synergy and competition due
to data and model size as an additive term to previous uni-modal scaling laws.
We also find four empirical phenomena observed during the training, such as
emergent coordinate-ascent style training that naturally alternates between
modalities, guidelines for selecting critical hyper-parameters, and connections
between mixed-modal competition and training stability. Finally, we test our
scaling law by training a 30B speech-text model, which significantly
outperforms the corresponding unimodal models. Overall, our research provides
valuable insights into the design and training of mixed-modal generative
models, an important new class of unified models that have unique
distributional properties.
- Abstract(参考訳): 生成言語モデルは、本質的にデータモダリティ(VQ-VAEからの任意の画像トークンの置換、HuBERTからの音声トークン、言語やコードのBPEトークンなど)の組み合わせを表現することができるトークンの列上の分布を定義する。
このような混合モーダルモデルのスケーリング特性をよりよく理解するために,8億から300億までの7つの異なるモーダルとモデルサイズを用いて,5100億トークンでトレーニングした250以上の実験を行った。
個々のモダリティとそれらの相互作用の寄与を統一する新しい混合モーダルスケーリング則を報告する。
具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。
また, 学習中に観察された4つの経験的現象, 自然にモダリティを交互に行う創発的座標・アセント型トレーニング, 臨界ハイパーパラメータ選択ガイドライン, 混合モーダル競争とトレーニング安定性の関連を見出した。
最後に、30bの音声テキストモデルをトレーニングしてスケーリング法則をテストし、対応するユニモーダルモデルを大幅に上回らせます。
全体として、我々の研究は、一意な分布特性を持つ統一モデルの重要な新しいクラスである混合モーダル生成モデルの設計と訓練に関する貴重な洞察を提供する。
関連論文リスト
- Collaborative decoding of critical tokens for boosting factuality of
large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。
世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。
我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-28T01:53:37Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models [39.479912987123214]
自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。
Fusionerは軽量なトランスフォーマーベースの融合モジュールで、凍結した視覚表現と言語概念をペアリングする。
提案手法は,任意の視覚モデルと言語モデル,あるいはユニモーダルデータのコーパス上で事前学習したモデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-10-27T02:57:26Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Normalizing Flow based Hidden Markov Models for Classification of Speech
Phones with Explainability [25.543231171094384]
説明可能性を求めるため,逐次データ生成モデルを開発した。
我々は、現代のニューラルネットワーク(正規化フロー)と伝統的な生成モデル(隠れマルコフモデル - HMM)を組み合わせる。
提案した生成モデルは、データの可能性を計算することができ、従って、最大形分類法(ML)に直接適合する。
論文 参考訳(メタデータ) (2021-07-01T20:10:55Z) - OCHADAI-KYODAI at SemEval-2021 Task 1: Enhancing Model Generalization
and Robustness for Lexical Complexity Prediction [8.066349353140819]
単語とマルチワード表現の語彙的複雑性を予測するアンサンブルモデルを提案する。
モデルは、目的語またはMWEandの文を入力として受信し、その複雑性スコアを出力する。
本モデルは,両サブタスクの上位10システムにランクインした。
論文 参考訳(メタデータ) (2021-05-12T09:27:46Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。