論文の概要: Making LLaMA SEE and Draw with SEED Tokenizer
- arxiv url: http://arxiv.org/abs/2310.01218v1
- Date: Mon, 2 Oct 2023 14:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 21:31:54.754457
- Title: Making LLaMA SEE and Draw with SEED Tokenizer
- Title(参考訳): シードトケナイザを用いたLLaMAシースと描画
- Authors: Yuying Ge, Sijie Zhao, Ziyun Zeng, Yixiao Ge, Chen Li, Xintao Wang and
Ying Shan
- Abstract要約: 大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
- 参考スコア(独自算出の注目度): 69.1083058794092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The great success of Large Language Models (LLMs) has expanded the potential
of multimodality, contributing to the gradual evolution of General Artificial
Intelligence (AGI). A true AGI agent should not only possess the capability to
perform predefined multi-tasks but also exhibit emergent abilities in an
open-world context. However, despite the considerable advancements made by
recent multimodal LLMs, they still fall short in effectively unifying
comprehension and generation tasks, let alone open-world emergent abilities. We
contend that the key to overcoming the present impasse lies in enabling text
and images to be represented and processed interchangeably within a unified
autoregressive Transformer. To this end, we introduce SEED, an elaborate image
tokenizer that empowers LLMs with the ability to SEE and Draw at the same time.
We identify two crucial design principles: (1) Image tokens should be
independent of 2D physical patch positions and instead be produced with a 1D
causal dependency, exhibiting intrinsic interdependence that aligns with the
left-to-right autoregressive prediction mechanism in LLMs. (2) Image tokens
should capture high-level semantics consistent with the degree of semantic
abstraction in words, and be optimized for both discriminativeness and
reconstruction during the tokenizer training phase. With SEED tokens, LLM is
able to perform scalable multimodal autoregression under its original training
recipe, i.e., next-word prediction. SEED-LLaMA is therefore produced by
large-scale pretraining and instruction tuning on the interleaved textual and
visual data, demonstrating impressive performance on a broad range of
multimodal comprehension and generation tasks. More importantly, SEED-LLaMA has
exhibited compositional emergent abilities such as multi-turn in-context
multimodal generation, acting like your AI assistant.
- Abstract(参考訳): 大規模言語モデル(llms)の成功はマルチモダリティの可能性を広げ、汎用人工知能(agi)の段階的進化に寄与した。
真のAGIエージェントは、事前に定義されたマルチタスクを実行する能力を持つだけでなく、オープンワールドのコンテキストにおいて創発的な能力を持つべきである。
しかし、近年のマルチモーダル LLM によるかなりの進歩にもかかわらず、オープンワールドの創発的能力だけでなく、事実上の理解と生成タスクの統一に不足している。
本稿では,テキストとイメージを統一された自己回帰変換器内で相互に表現・処理できることが,現状の障害を克服する鍵である,と論じる。
この目的のために,SEE と Draw を同時に実現した精巧な画像トークンである SEED を紹介した。
1)画像トークンは2次元の物理的パッチ位置から独立し、1次元の因果依存性で生成され、LLMの左から右への自己回帰予測機構に適合する本質的な相互依存性を示す。
2)画像トークンは,単語の意味的抽象化の程度と一致した高レベル意味をキャプチャし,トークン化訓練段階での識別性と再構築に最適化する必要がある。
SEEDトークンを使用すると、LLMは元のトレーニングレシピ、すなわち次の単語予測に基づいてスケーラブルなマルチモーダル自動回帰を実行することができる。
したがってSEED-LLaMAは、インターリーブされたテキストおよび視覚データに対する大規模な事前学習と指導のチューニングによって作成され、多モード理解および生成タスクの幅広い範囲における印象的なパフォーマンスを示す。
さらに重要なのは、SEED-LLaMAは、AIアシスタントのように振る舞うマルチターンインコンテキストマルチモーダル生成のような、合成創発的な能力を示しています。
関連論文リスト
- MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [48.98105914356609]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
我々は,Ominiponent Supervised Finetuningを導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis [18.876109299162138]
特殊設計されたセマンティックビジョンランゲージ統合エキスパート(Semantic Vision-Language Integration Expert, SemVIE)を組み込んだ,T2I世代のための新しいフレームワークであるMARSを紹介する。
この革新的なコンポーネントは、言語情報と視覚情報を独立に処理し、ビジュアルコンポーネントを微調整しながらテキストコンポーネントを凍結することにより、事前訓練されたLCMを統合する。
MARSはSD1.5に必要なGPU日のうち9%しか必要としないが、様々なベンチマークで顕著な結果が得られる。
論文 参考訳(メタデータ) (2024-07-10T12:52:49Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。