論文の概要: Unified Language-Vision Pretraining with Dynamic Discrete Visual
Tokenization
- arxiv url: http://arxiv.org/abs/2309.04669v1
- Date: Sat, 9 Sep 2023 03:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 17:09:16.213895
- Title: Unified Language-Vision Pretraining with Dynamic Discrete Visual
Tokenization
- Title(参考訳): 動的離散視覚化を用いた統一言語ビジョン事前学習
- Authors: Yang Jin, Kun Xu, Kun Xu, Liwei Chen, Chao Liao, Jianchao Tan, Bin
Chen, Chenyi Lei, An Liu, Chengru Song, Xiaoqiang Lei, Yadong Mu, Di Zhang,
Wenwu Ou, Kun Gai
- Abstract要約: 我々は、非言語的な画像をLLMで読める外国語のような個別のトークン列に変換する視覚的トークン化器を作成する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像の内容から変化する動的シーケンス長もサポートする。
Webスケールの画像テキストコーパスで事前トレーニングされたLaVITは、印象的なマルチモーダル理解機能を備えている。
- 参考スコア(独自算出の注目度): 52.845032517147644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the remarkable advance of the Large Language Model (LLM) has
inspired researchers to transfer its extraordinary reasoning capability to data
across several modalities. The prevailing approaches primarily regard visual
input as the prompt and focus exclusively on optimizing the text generation
process conditioned upon vision content by a frozen LLM. Such an inequitable
treatment of vision and language heavily constrains the model's potential. In
this paper, we break through this limitation by representing both vision and
language in a unified representation. To this end, we craft a visual tokenizer
that translates the non-linguistic image into a sequence of discrete tokens
like a foreign language that LLM can read. The resulting visual tokens
encompass high-level semantics worthy of a word and also support dynamic
sequence length varying from the image content. Coped with this visual
tokenizer, the presented foundation model called LaVIT (Language-VIsion
Transformer) can handle both image and text indiscriminately under a unified
generative learning paradigm. Pre-trained on the web-scale image-text corpus,
LaVIT is empowered with impressive multi-modal comprehension capability. The
extensive experiments showcase that it outperforms existing models by a large
margin on downstream tasks. Our code and models will be available at
https://github.com/jy0205/LaVIT.
- Abstract(参考訳): 近年、LLM(Large Language Model)の顕著な進歩により、研究者は、その異常な推論能力をいくつかのモダリティにまたがるデータに移すよう促されている。
主流のアプローチは、主に視覚入力をプロンプトとみなし、凍結LDMによる視覚内容に規定されたテキスト生成プロセスの最適化にのみ焦点をあてている。
このような視覚と言語に対する不平等な扱いは、モデルの可能性を強く制限する。
本稿では,視覚と言語の両方を統一表現で表現することで,この限界を突破する。
この目的のために,非言語的イメージをLLMで読める外国語のような離散トークン列に変換する視覚的トークン化器を構築する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像の内容から変化する動的シーケンス長もサポートする。
この視覚的トークン化と組み合わせて、LaVIT(Language-Vision Transformer)と呼ばれる提示された基盤モデルは、画像とテキストの両方を、統一された生成学習パラダイムの下で無差別に扱うことができる。
Webスケールの画像テキストコーパスで事前トレーニングされたLaVITは、印象的なマルチモーダル理解機能を備えている。
広範な実験は、既存のモデルよりも下流のタスクで大きなマージンで勝っていることを示している。
私たちのコードとモデルはhttps://github.com/jy0205/LaVIT.comで公開されます。
関連論文リスト
- Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。
我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文 参考訳(メタデータ) (2024-03-12T17:59:51Z) - ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。
Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。
画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文 参考訳(メタデータ) (2023-08-31T12:46:36Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Augmenting Vision Language Pretraining by Learning Codebook with Visual
Semantics [29.393661499333284]
本稿では,各視覚トークンに意味を付与するコードブックを共同で学習することで,視覚表現を「分散化」することを提案する。
次に、これらの離散化された視覚的意味論を自己教師付き基盤構造として利用して、マスケッド画像モデリングの目的を構築する。
実験は、一般的な視覚言語ベンチマークにまたがって、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-31T17:36:09Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。