Fugu-MT 論文翻訳(概要): Planting a SEED of Vision in Large Language Model

論文の概要: Planting a SEED of Vision in Large Language Model

arxiv url: http://arxiv.org/abs/2307.08041v2
Date: Sat, 12 Aug 2023 04:42:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 19:12:18.187329
Title: Planting a SEED of Vision in Large Language Model
Title（参考訳）: 視覚のSEEDを大規模言語モデルに植え付ける
Authors: Yuying Ge, Yixiao Ge, Ziyun Zeng, Xintao Wang and Ying Shan
Abstract要約: このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
参考スコア（独自算出の注目度）: 73.17530130368053
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present SEED, an elaborate image tokenizer that empowers Large Language Models (LLMs) with the emergent ability to SEE and Draw at the same time. Research on image tokenizers has previously reached an impasse, as frameworks employing quantized visual tokens have lost prominence due to subpar performance and convergence in multimodal comprehension (compared to BLIP-2, etc.) or generation (compared to Stable Diffusion, etc.). Despite the limitations, we remain confident in its natural capacity to unify visual and textual representations, facilitating scalable multimodal training with LLM's original recipe. In this study, we identify two crucial principles for the architecture and training of SEED that effectively ease subsequent alignment with LLMs. (1) Image tokens should be independent of 2D physical patch positions and instead be produced with a 1D causal dependency, exhibiting intrinsic interdependence that aligns with the left-to-right autoregressive prediction mechanism in LLMs. (2) Image tokens should capture high-level semantics consistent with the degree of semantic abstraction in words, and be optimized for both discriminativeness and reconstruction during the tokenizer training phase. As a result, the off-the-shelf LLM is able to perform both image-to-text and text-to-image generation by incorporating our SEED through efficient LoRA tuning. Comprehensive multimodal pretraining and instruction tuning, which may yield improved results, are reserved for future investigation. This version of SEED was trained in 5.7 days using only 64 V100 GPUs and 5M publicly available image-text pairs. Our preliminary study emphasizes the great potential of discrete visual tokens in versatile multimodal LLMs and the importance of proper image tokenizers in broader research.
Abstract（参考訳）: 我々は,SEEとDrawの創発的能力を備えたLLM(Large Language Models)を同時に実現する精巧な画像トークンであるSEEDを提案する。画像トークン化器の研究は、マルチモーダル理解(BLIP-2など)や生成(安定拡散など)において、サブパーパフォーマンスと収束により、量子化された視覚トークンを用いたフレームワークが優位に立たなくなったため、これまでは不合理な状況にあった。制限にもかかわらず、私たちは視覚とテキストの表現を統一する自然な能力に自信を持ち、LLMのオリジナルレシピを使ったスケーラブルなマルチモーダルトレーニングを支援しています。本研究では,LLM との連携を効果的に緩和する SEED のアーキテクチャとトレーニングの2つの重要な原則を同定する。 1)画像トークンは2次元の物理的パッチ位置から独立して1次元因果依存性で生成され,LSMの左右自己回帰予測機構に適合する固有の相互依存性を示す。 2)画像トークンは,単語の意味的抽象化の程度と一致した高レベル意味をキャプチャし,トークン化訓練段階での識別性と再構築に最適化する必要がある。その結果、LLMは、効率的なLoRAチューニングにより、SEEDを組み込むことで、画像からテキストへ、テキストへの両方を生成することができる。総合的なマルチモーダル事前学習と命令チューニングは、より良い結果をもたらす可能性があるが、将来の調査のために予約されている。このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。予備研究は、多目的多モードLCMにおける離散的視覚トークンの可能性と、より広範な研究における適切な画像トークン化の重要性を強調した。

関連論文リスト

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文参考訳（メタデータ） (2025-04-20T16:14:28Z)
Aligning Vision to Language: Text-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning [10.761218096540976]
LLM(Large Language Models)におけるマルチモーダル推論は、不完全な知識と幻覚に苦しむ。本稿では,マルチモーダルな知識グラフを構築するための新しいアプローチであるVaLiK(Vision-Align-to-Language Integrated Knowledge Graph)を提案する。
論文参考訳（メタデータ） (2025-03-17T09:31:14Z)
Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文参考訳（メタデータ） (2024-12-05T17:54:27Z)
Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文参考訳（メタデータ） (2024-08-20T09:58:30Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。 SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。 SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文参考訳（メタデータ） (2023-10-02T14:03:02Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。