Fugu-MT 論文翻訳(概要): Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization

論文の概要: Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization

arxiv url: http://arxiv.org/abs/2309.04669v3
Date: Fri, 22 Mar 2024 05:41:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 22:59:44.266689
Title: Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
Title（参考訳）: 動的離散視覚化を用いたLLMにおける統一言語ビジョン事前学習
Authors: Yang Jin, Kun Xu, Kun Xu, Liwei Chen, Chao Liao, Jianchao Tan, Quzhe Huang, Bin Chen, Chenyi Lei, An Liu, Chengru Song, Xiaoqiang Lei, Di Zhang, Wenwu Ou, Kun Gai, Yadong Mu,
Abstract要約: 非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
参考スコア（独自算出の注目度）: 52.935150075484074
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, the remarkable advance of the Large Language Model (LLM) has inspired researchers to transfer its extraordinary reasoning capability to both vision and language data. However, the prevailing approaches primarily regard the visual input as a prompt and focus exclusively on optimizing the text generation process conditioned upon vision content by a frozen LLM. Such an inequitable treatment of vision and language heavily constrains the model's potential. In this paper, we break through this limitation by representing both vision and language in a unified form. Specifically, we introduce a well-designed visual tokenizer to translate the non-linguistic image into a sequence of discrete tokens like a foreign language that LLM can read. The resulting visual tokens encompass high-level semantics worthy of a word and also support dynamic sequence length varying from the image. Coped with this tokenizer, the presented foundation model called LaVIT can handle both image and text indiscriminately under the same generative learning paradigm. This unification empowers LaVIT to serve as an impressive generalist interface to understand and generate multi-modal content simultaneously. Extensive experiments further showcase that it outperforms the existing models by a large margin on massive vision-language tasks. Our code and models are available at https://github.com/jy0205/LaVIT.
Abstract（参考訳）: 近年、LLM(Large Language Model)の顕著な進歩により、研究者は、その異常な推論能力を視覚データと言語データの両方に転送するインスピレーションを与えている。しかし,主に視覚入力をプロンプトとみなし,凍結LDMによる視覚内容に応じたテキスト生成プロセスの最適化にのみ焦点をあてるアプローチが主流である。このような視覚と言語に対する不平等な扱いは、モデルの可能性を大幅に制限する。本稿では,視覚と言語の両方を統一形式で表現することで,この限界を突破する。具体的には、LLMが読み取ることができる外国語のような、非言語的なイメージを離散トークンのシーケンスに変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。このトークン化と組み合わせて、LaVITと呼ばれる提示された基盤モデルは、同じ生成学習パラダイムの下で、画像とテキストの両方を無差別に扱うことができる。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。大規模な実験では、膨大な視覚言語タスクにおいて、既存のモデルよりも優れた性能を示す。私たちのコードとモデルはhttps://github.com/jy0205/LaVIT.comで公開されています。

関連論文リスト

Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文参考訳（メタデータ） (2025-06-23T17:59:14Z)
Perceiving Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models [1.9253106218929117]
MLLM(Multimodal Large Language Models)は、視覚的な入力を完全に活用できないことが多い。われわれのアプローチはまず、MLLMが画像領域の視覚的理解をどのように構築するかについての洞察を与え、その能力を増幅する技術を導入する。本稿では,視覚的に依存するトークンの予測能力の定量化と,視覚的に困難なタスクの10 pt の高速化により,結果モデルのより優れたマルチモーダル理解を実証する。
論文参考訳（メタデータ） (2025-05-08T20:04:27Z)
HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文参考訳（メタデータ） (2024-12-20T18:59:59Z)
Visual Lexicon: Rich Image Features in Language Space [99.94214846451347]
ViLexは、リッチなセマンティックコンテンツと詳細な視覚的詳細を同時にキャプチャする。 ViLexは、凍結されたテキスト・ツー・イメージ(T2I)拡散モデルを用いて入力画像の再構成に最適化されたトークンを生成する。言語空間に埋め込まれた画像として、ViLexトークンは自然言語の合成性を利用する。
論文参考訳（メタデータ） (2024-12-09T18:57:24Z)
Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。 SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文参考訳（メタデータ） (2024-06-07T17:55:43Z)
Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文参考訳（メタデータ） (2024-03-12T17:59:51Z)
ViLTA: Enhancing Vision-Language Pre-training through Textual Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。 Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文参考訳（メタデータ） (2023-08-31T12:46:36Z)
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文参考訳（メタデータ） (2023-05-18T17:59:42Z)
DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。 DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-10-28T23:00:40Z)
Augmenting Vision Language Pretraining by Learning Codebook with Visual Semantics [29.393661499333284]
本稿では,各視覚トークンに意味を付与するコードブックを共同で学習することで,視覚表現を「分散化」することを提案する。次に、これらの離散化された視覚的意味論を自己教師付き基盤構造として利用して、マスケッド画像モデリングの目的を構築する。実験は、一般的な視覚言語ベンチマークにまたがって、我々のアプローチの有効性を検証する。
論文参考訳（メタデータ） (2022-07-31T17:36:09Z)
Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文参考訳（メタデータ） (2022-03-27T21:16:10Z)
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文参考訳（メタデータ） (2020-10-14T02:11:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。