論文の概要: Planting a SEED of Vision in Large Language Model
- arxiv url: http://arxiv.org/abs/2307.08041v2
- Date: Sat, 12 Aug 2023 04:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 19:12:18.187329
- Title: Planting a SEED of Vision in Large Language Model
- Title(参考訳): 視覚のSEEDを大規模言語モデルに植え付ける
- Authors: Yuying Ge, Yixiao Ge, Ziyun Zeng, Xintao Wang and Ying Shan
- Abstract要約: このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
- 参考スコア(独自算出の注目度): 73.17530130368053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SEED, an elaborate image tokenizer that empowers Large Language
Models (LLMs) with the emergent ability to SEE and Draw at the same time.
Research on image tokenizers has previously reached an impasse, as frameworks
employing quantized visual tokens have lost prominence due to subpar
performance and convergence in multimodal comprehension (compared to BLIP-2,
etc.) or generation (compared to Stable Diffusion, etc.). Despite the
limitations, we remain confident in its natural capacity to unify visual and
textual representations, facilitating scalable multimodal training with LLM's
original recipe. In this study, we identify two crucial principles for the
architecture and training of SEED that effectively ease subsequent alignment
with LLMs. (1) Image tokens should be independent of 2D physical patch
positions and instead be produced with a 1D causal dependency, exhibiting
intrinsic interdependence that aligns with the left-to-right autoregressive
prediction mechanism in LLMs. (2) Image tokens should capture high-level
semantics consistent with the degree of semantic abstraction in words, and be
optimized for both discriminativeness and reconstruction during the tokenizer
training phase. As a result, the off-the-shelf LLM is able to perform both
image-to-text and text-to-image generation by incorporating our SEED through
efficient LoRA tuning. Comprehensive multimodal pretraining and instruction
tuning, which may yield improved results, are reserved for future
investigation. This version of SEED was trained in 5.7 days using only 64 V100
GPUs and 5M publicly available image-text pairs. Our preliminary study
emphasizes the great potential of discrete visual tokens in versatile
multimodal LLMs and the importance of proper image tokenizers in broader
research.
- Abstract(参考訳): 我々は,SEEとDrawの創発的能力を備えたLLM(Large Language Models)を同時に実現する精巧な画像トークンであるSEEDを提案する。
画像トークン化器の研究は、マルチモーダル理解(BLIP-2など)や生成(安定拡散など)において、サブパーパフォーマンスと収束により、量子化された視覚トークンを用いたフレームワークが優位に立たなくなったため、これまでは不合理な状況にあった。
制限にもかかわらず、私たちは視覚とテキストの表現を統一する自然な能力に自信を持ち、LLMのオリジナルレシピを使ったスケーラブルなマルチモーダルトレーニングを支援しています。
本研究では,LLM との連携を効果的に緩和する SEED のアーキテクチャとトレーニングの2つの重要な原則を同定する。
1)画像トークンは2次元の物理的パッチ位置から独立して1次元因果依存性で生成され,LSMの左右自己回帰予測機構に適合する固有の相互依存性を示す。
2)画像トークンは,単語の意味的抽象化の程度と一致した高レベル意味をキャプチャし,トークン化訓練段階での識別性と再構築に最適化する必要がある。
その結果、LLMは、効率的なLoRAチューニングにより、SEEDを組み込むことで、画像からテキストへ、テキストへの両方を生成することができる。
総合的なマルチモーダル事前学習と命令チューニングは、より良い結果をもたらす可能性があるが、将来の調査のために予約されている。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
予備研究は、多目的多モードLCMにおける離散的視覚トークンの可能性と、より広範な研究における適切な画像トークン化の重要性を強調した。
関連論文リスト
- Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。