Fugu-MT 論文翻訳(概要): Making LLaMA SEE and Draw with SEED Tokenizer

論文の概要: Making LLaMA SEE and Draw with SEED Tokenizer

arxiv url: http://arxiv.org/abs/2310.01218v1
Date: Mon, 2 Oct 2023 14:03:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 21:31:54.754457
Title: Making LLaMA SEE and Draw with SEED Tokenizer
Title（参考訳）: シードトケナイザを用いたLLaMAシースと描画
Authors: Yuying Ge, Sijie Zhao, Ziyun Zeng, Yixiao Ge, Chen Li, Xintao Wang and Ying Shan
Abstract要約: 大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。 SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。 SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
参考スコア（独自算出の注目度）: 69.1083058794092
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The great success of Large Language Models (LLMs) has expanded the potential of multimodality, contributing to the gradual evolution of General Artificial Intelligence (AGI). A true AGI agent should not only possess the capability to perform predefined multi-tasks but also exhibit emergent abilities in an open-world context. However, despite the considerable advancements made by recent multimodal LLMs, they still fall short in effectively unifying comprehension and generation tasks, let alone open-world emergent abilities. We contend that the key to overcoming the present impasse lies in enabling text and images to be represented and processed interchangeably within a unified autoregressive Transformer. To this end, we introduce SEED, an elaborate image tokenizer that empowers LLMs with the ability to SEE and Draw at the same time. We identify two crucial design principles: (1) Image tokens should be independent of 2D physical patch positions and instead be produced with a 1D causal dependency, exhibiting intrinsic interdependence that aligns with the left-to-right autoregressive prediction mechanism in LLMs. (2) Image tokens should capture high-level semantics consistent with the degree of semantic abstraction in words, and be optimized for both discriminativeness and reconstruction during the tokenizer training phase. With SEED tokens, LLM is able to perform scalable multimodal autoregression under its original training recipe, i.e., next-word prediction. SEED-LLaMA is therefore produced by large-scale pretraining and instruction tuning on the interleaved textual and visual data, demonstrating impressive performance on a broad range of multimodal comprehension and generation tasks. More importantly, SEED-LLaMA has exhibited compositional emergent abilities such as multi-turn in-context multimodal generation, acting like your AI assistant.
Abstract（参考訳）: 大規模言語モデル(llms)の成功はマルチモダリティの可能性を広げ、汎用人工知能(agi)の段階的進化に寄与した。真のAGIエージェントは、事前に定義されたマルチタスクを実行する能力を持つだけでなく、オープンワールドのコンテキストにおいて創発的な能力を持つべきである。しかし、近年のマルチモーダル LLM によるかなりの進歩にもかかわらず、オープンワールドの創発的能力だけでなく、事実上の理解と生成タスクの統一に不足している。本稿では,テキストとイメージを統一された自己回帰変換器内で相互に表現・処理できることが,現状の障害を克服する鍵である,と論じる。この目的のために,SEE と Draw を同時に実現した精巧な画像トークンである SEED を紹介した。 1)画像トークンは2次元の物理的パッチ位置から独立し、1次元の因果依存性で生成され、LLMの左から右への自己回帰予測機構に適合する本質的な相互依存性を示す。 2)画像トークンは,単語の意味的抽象化の程度と一致した高レベル意味をキャプチャし,トークン化訓練段階での識別性と再構築に最適化する必要がある。 SEEDトークンを使用すると、LLMは元のトレーニングレシピ、すなわち次の単語予測に基づいてスケーラブルなマルチモーダル自動回帰を実行することができる。したがってSEED-LLaMAは、インターリーブされたテキストおよび視覚データに対する大規模な事前学習と指導のチューニングによって作成され、多モード理解および生成タスクの幅広い範囲における印象的なパフォーマンスを示す。さらに重要なのは、SEED-LLaMAは、AIアシスタントのように振る舞うマルチターンインコンテキストマルチモーダル生成のような、合成創発的な能力を示しています。

関連論文リスト

CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning [24.981279071712173]
本稿では,LVLMを表現タスクと生成タスクの両方に拡張する,対照的に自己回帰的な微調整フレームワークであるCAFeを紹介する。提案手法は,従来のタスクを統一し,マルチモーダル検索とマルチモーダル生成ベンチマークの両面で最先端の結果を得る。
論文参考訳（メタデータ） (2025-03-25T17:57:17Z)
ARMOR v0.1: Empowering Autoregressive Multimodal Understanding Model with Interleaved Multimodal Generation via Asymmetric Synergy [14.703591553247948]
ARMORは、既存のマルチモーダルな大規模言語モデルを微調整することで、理解と生成の両方を達成するフレームワークである。 ARMORは、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズムの3つの観点から既存のMLLMを拡張している。実験により、ARMORは既存のMLLMをUniMにアップグレードし、将来性のある画像生成機能を持つことを示した。
論文参考訳（メタデータ） (2025-03-09T10:15:39Z)
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。コードとモデルはリリースされます。
論文参考訳（メタデータ） (2024-12-12T18:59:26Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。 MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文参考訳（メタデータ） (2024-09-26T09:57:16Z)
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [48.98105914356609]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。我々は,Ominiponent Supervised Finetuningを導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
論文参考訳（メタデータ） (2024-08-05T17:46:53Z)
MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis [18.876109299162138]
特殊設計されたセマンティックビジョンランゲージ統合エキスパート(Semantic Vision-Language Integration Expert, SemVIE)を組み込んだ,T2I世代のための新しいフレームワークであるMARSを紹介する。この革新的なコンポーネントは、言語情報と視覚情報を独立に処理し、ビジュアルコンポーネントを微調整しながらテキストコンポーネントを凍結することにより、事前訓練されたLCMを統合する。 MARSはSD1.5に必要なGPU日のうち9%しか必要としないが、様々なベンチマークで顕著な結果が得られる。
論文参考訳（メタデータ） (2024-07-10T12:52:49Z)
ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。 ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。 ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文参考訳（メタデータ） (2023-11-27T18:52:09Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)
Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文参考訳（メタデータ） (2023-07-16T13:41:39Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。