論文の概要: Emu3: Next-Token Prediction is All You Need
- arxiv url: http://arxiv.org/abs/2409.18869v1
- Date: Fri, 27 Sep 2024 16:06:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 08:58:26.774642
- Title: Emu3: Next-Token Prediction is All You Need
- Title(参考訳): Emu3: 次世代の予測は必要なだけ
- Authors: Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang,
- Abstract要約: Emu3は、次世代の予測だけで訓練された最先端のマルチモーダルモデルスイートである。
Emu3は、生成タスクと知覚タスクの両方において、確立されたタスク固有モデルよりも優れています。
また、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することもできる。
- 参考スコア(独自算出の注目度): 45.142268281651035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While next-token prediction is considered a promising path towards artificial general intelligence, it has struggled to excel in multimodal tasks, which are still dominated by diffusion models (e.g., Stable Diffusion) and compositional approaches (e.g., CLIP combined with LLMs). In this paper, we introduce Emu3, a new suite of state-of-the-art multimodal models trained solely with next-token prediction. By tokenizing images, text, and videos into a discrete space, we train a single transformer from scratch on a mixture of multimodal sequences. Emu3 outperforms several well-established task-specific models in both generation and perception tasks, surpassing flagship models such as SDXL and LLaVA-1.6, while eliminating the need for diffusion or compositional architectures. Emu3 is also capable of generating high-fidelity video via predicting the next token in a video sequence. We simplify complex multimodal model designs by converging on a singular focus: tokens, unlocking great potential for scaling both during training and inference. Our results demonstrate that next-token prediction is a promising path towards building general multimodal intelligence beyond language. We open-source key techniques and models to support further research in this direction.
- Abstract(参考訳): 次世代の予測は汎用人工知能への有望な道と考えられているが、まだ拡散モデル(例えば、安定拡散)と合成アプローチ(例えば、CLIPとLLMの組み合わせ)によって支配されているマルチモーダルなタスクに精通するのに苦戦している。
本稿では,新しい最先端マルチモーダルモデルであるEmu3について紹介する。
画像、テキスト、動画を離散空間にトークン化することにより、マルチモーダルシーケンスの混合に基づいて、スクラッチから単一のトランスフォーマーを訓練する。
Emu3は、SDXLやLLaVA-1.6といったフラッグシップモデルよりも優れており、拡散や構成アーキテクチャの必要性を排除している。
Emu3はまた、ビデオシーケンス内の次のトークンを予測することによって、高忠実度ビデオを生成することができる。
我々は、トークンという特異な焦点を集中させることで、複雑なマルチモーダルモデル設計を単純化し、トレーニングと推論の両方でスケールする大きな可能性を解き放つ。
この結果は,言語を越えた汎用マルチモーダルインテリジェンスを構築するための,次世代の予測が有望な道であることを示す。
我々は、この方向のさらなる研究を支援するために、重要な技術とモデルをオープンソースにしています。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Better & Faster Large Language Models via Multi-token Prediction [29.067271500844928]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。
複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文 参考訳(メタデータ) (2024-04-30T17:33:57Z) - Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1070559563592]
我々は,Corver,Correlated Video-Language Pre-Torning法を紹介する。
クロスモーダルな特徴アライメントと融合を、新しい3モーダルアライメント事前訓練タスクを通じて改善する。
Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-07-16T09:38:52Z) - Diffusion Models for Video Prediction and Infilling [27.246449347832108]
本稿では,Random-Mask Video Diffusion (RaMViD)を提案する。
マスクをオンにすることで、モデルはビデオ予測、補充、アップサンプリングを行うことができる。
我々は,ビデオ予測のためのベンチマークデータセットと,競争力のある結果を得たビデオ生成のためのベンチマークデータセットを2つ評価した。
論文 参考訳(メタデータ) (2022-06-15T17:44:47Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。