Fugu-MT 論文翻訳(概要): Scaling Laws for Generative Mixed-Modal Language Models

論文の概要: Scaling Laws for Generative Mixed-Modal Language Models

arxiv url: http://arxiv.org/abs/2301.03728v1
Date: Tue, 10 Jan 2023 00:20:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-11 16:20:30.907854
Title: Scaling Laws for Generative Mixed-Modal Language Models
Title（参考訳）: 生成混合モーダル言語モデルのスケーリング法則
Authors: Armen Aghajanyan, Lili Yu, Alexis Conneau, Wei-Ning Hsu, Karen Hambardzumyan, Susan Zhang, Stephen Roller, Naman Goyal, Omer Levy, Luke Zettlemoyer
Abstract要約: 個別のモダリティの貢献とそれら間の相互作用を統一する混合モードスケーリング法則について報告する。具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。また,訓練中に観察される4つの経験的現象,例えば,自然にモダリティを交互に交互に行う創発的コーディネート・アセット・スタイル・トレーニングを見出した。
参考スコア（独自算出の注目度）: 103.25737824352949
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative language models define distributions over sequences of tokens that can represent essentially any combination of data modalities (e.g., any permutation of image tokens from VQ-VAEs, speech tokens from HuBERT, BPE tokens for language or code, and so on). To better understand the scaling properties of such mixed-modal models, we conducted over 250 experiments using seven different modalities and model sizes ranging from 8 million to 30 billion, trained on 5-100 billion tokens. We report new mixed-modal scaling laws that unify the contributions of individual modalities and the interactions between them. Specifically, we explicitly model the optimal synergy and competition due to data and model size as an additive term to previous uni-modal scaling laws. We also find four empirical phenomena observed during the training, such as emergent coordinate-ascent style training that naturally alternates between modalities, guidelines for selecting critical hyper-parameters, and connections between mixed-modal competition and training stability. Finally, we test our scaling law by training a 30B speech-text model, which significantly outperforms the corresponding unimodal models. Overall, our research provides valuable insights into the design and training of mixed-modal generative models, an important new class of unified models that have unique distributional properties.
Abstract（参考訳）: 生成言語モデルは、本質的にデータモダリティ(VQ-VAEからの任意の画像トークンの置換、HuBERTからの音声トークン、言語やコードのBPEトークンなど)の組み合わせを表現することができるトークンの列上の分布を定義する。このような混合モーダルモデルのスケーリング特性をよりよく理解するために,8億から300億までの7つの異なるモーダルとモデルサイズを用いて,5100億トークンでトレーニングした250以上の実験を行った。個々のモダリティとそれらの相互作用の寄与を統一する新しい混合モーダルスケーリング則を報告する。具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。また, 学習中に観察された4つの経験的現象, 自然にモダリティを交互に行う創発的座標・アセント型トレーニング, 臨界ハイパーパラメータ選択ガイドライン, 混合モーダル競争とトレーニング安定性の関連を見出した。最後に、30bの音声テキストモデルをトレーニングしてスケーリング法則をテストし、対応するユニモーダルモデルを大幅に上回らせます。全体として、我々の研究は、一意な分布特性を持つ統一モデルの重要な新しいクラスである混合モーダル生成モデルの設計と訓練に関する貴重な洞察を提供する。

関連論文リスト

No Need to Talk: Asynchronous Mixture of Language Models [25.3581396758015]
SmallTalk LMは、ほぼ非同期な方法で言語モデルの混合を訓練する革新的な方法である。本研究では,SmallTalk LM が,FLOP とほぼ同一の推論コストに対して,高密度モデルベースラインよりも有意に低いパープレキシティを実現することを示す。
論文参考訳（メタデータ） (2024-10-04T15:50:10Z)
Explore the Limits of Omni-modal Pretraining at Scale [21.82148059125346]
マルチモーダルコンテキスト(MiCo)という,スケーラブルな事前学習パラダイムを提案する。 MiCoは、事前トレーニングプロセスにおいて、モデルパラメータとともに、モダリティとデータの量をスケールアップすることができる。我々のモデルは、最先端のパフォーマンスのために37の新たなレコードを作成します。
論文参考訳（メタデータ） (2024-06-13T17:59:53Z)
Multimodal Lego: Model Merging and Fine-Tuning Across Topologies and Modalities in Biomedicine [10.774128925670183]
マルチモーダルレゴ(MM-Lego)は、あらゆるエンコーダを最小限の微調整なしで競争力のあるマルチモーダルモデルに変換する汎用的な融合フレームワークである。本研究では, MM-Legoをモデルマージ法として用いることで, 微調整を伴わずに, エンドツーエンド融合モデルとの競合性能を実現することができることを示す。
論文参考訳（メタデータ） (2024-05-30T11:14:01Z)
DynaMo: Accelerating Language Model Inference with Dynamic Multi-Token Sampling [51.055580277828]
ネット推論時間を短縮するマルチトークン予測言語モデルであるDynaMoを提案する。我々のモデルは、予測された関節確率分布に対する信頼度に基づいて複数のトークンを予測する。また、テキスト生成品質を向上させるために、推定結合確率を高める新しい方法を提案する。
論文参考訳（メタデータ） (2024-05-01T22:17:57Z)
Collaborative decoding of critical tokens for boosting factuality of large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文参考訳（メタデータ） (2024-02-28T01:53:37Z)
Improving Discriminative Multi-Modal Learning with Large-Scale Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。 MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文参考訳（メタデータ） (2023-10-08T15:01:54Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
OCHADAI-KYODAI at SemEval-2021 Task 1: Enhancing Model Generalization and Robustness for Lexical Complexity Prediction [8.066349353140819]
単語とマルチワード表現の語彙的複雑性を予測するアンサンブルモデルを提案する。モデルは、目的語またはMWEandの文を入力として受信し、その複雑性スコアを出力する。本モデルは,両サブタスクの上位10システムにランクインした。
論文参考訳（メタデータ） (2021-05-12T09:27:46Z)
AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。 3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文参考訳（メタデータ） (2020-01-15T18:32:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。