論文の概要: UniCode: Learning a Unified Codebook for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2403.09072v1
- Date: Thu, 14 Mar 2024 03:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:57:10.117679
- Title: UniCode: Learning a Unified Codebook for Multimodal Large Language Models
- Title(参考訳): UniCode: マルチモーダルな大規模言語モデルのための統一コードブックを学ぶ
- Authors: Sipeng Zheng, Bohan Zhou, Yicheng Feng, Ye Wang, Zongqing Lu,
- Abstract要約: マルチモーダル大言語モデル(MLLM)の領域内での新しいアプローチである textbfUniCode を提案する。
UniCodeは、視覚、テキスト、潜在的に他の種類の信号を効率的にトークン化する統一されたコードブックを学習する。
トレーニング中にパラメータが大幅に少なく、データが少ないにもかかわらず、Unicodeは視覚的再構成と生成の有望な能力を示している。
- 参考スコア(独自算出の注目度): 33.48624855154342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose \textbf{UniCode}, a novel approach within the domain of multimodal large language models (MLLMs) that learns a unified codebook to efficiently tokenize visual, text, and potentially other types of signals. This innovation addresses a critical limitation in existing MLLMs: their reliance on a text-only codebook, which restricts MLLM's ability to generate images and texts in a multimodal context. Towards this end, we propose a language-driven iterative training paradigm, coupled with an in-context pre-training task we term ``image decompression'', enabling our model to interpret compressed visual data and generate high-quality images.The unified codebook empowers our model to extend visual instruction tuning to non-linguistic generation tasks. Moreover, UniCode is adaptable to diverse stacked quantization approaches in order to compress visual signals into a more compact token representation. Despite using significantly fewer parameters and less data during training, Unicode demonstrates promising capabilities in visual reconstruction and generation. It also achieves performances comparable to leading MLLMs across a spectrum of VQA benchmarks.
- Abstract(参考訳): 本稿では,マルチモーダル大規模言語モデル(MLLM)の領域内で,視覚的,テキスト的,潜在的に他の種類の信号を効率的にトークン化するための統一コードブックを学習する,新しいアプローチである \textbf{UniCode} を提案する。
MLLMはテキストのみのコードブックに依存しており、マルチモーダルコンテキストで画像やテキストを生成する能力を制限する。
そこで,本稿では,言語駆動型反復学習パラダイムと,<image decompression''というコンテキスト内事前学習タスクを併用して,圧縮された視覚データを解釈し,高品質な画像を生成するためのモデルを提案する。
さらに、UniCodeは、視覚信号をよりコンパクトなトークン表現に圧縮するために、様々な積み重ね量子化アプローチに適応できる。
トレーニング中にパラメータが大幅に少なく、データが少ないにもかかわらず、Unicodeは視覚的再構成と生成の有望な能力を示している。
また、VQAベンチマークでリードするMLLMに匹敵するパフォーマンスも達成している。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - Kosmos-G: Generating Images in Context with Multimodal Large Language
Models [124.00253348311792]
本稿では,マルチモーダル大規模言語モデル(MLLM)の高度な認識能力を利用したKosmos-Gを提案する。
提案手法は,テキストモダリティをアンカーとして用いたMLLMとCLIPの出力空間を整列し,キュレートされたデータに対して合成指導を行う。
Kosmos-Gは、ゼロショットマルチエンタリティの主観的生成のユニークな能力を実証している。
論文 参考訳(メタデータ) (2023-10-04T17:28:44Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual
Tokenization [53.946191253524766]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。