Fugu-MT 論文翻訳(概要): Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation

論文の概要: Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation

arxiv url: http://arxiv.org/abs/2310.05737v2
Date: Wed, 13 Mar 2024 05:34:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 18:27:57.264362
Title: Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation
Title（参考訳）: 言語モデルが拡散に勝る - Tokenizerがビジュアル生成の鍵
Authors: Lijun Yu, Jos\'e Lezama, Nitesh B. Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Vighnesh Birodkar, Agrim Gupta, Xiuye Gu, Alexander G. Hauptmann, Boqing Gong, Ming-Hsuan Yang, Irfan Essa, David A. Ross, Lu Jiang
Abstract要約: 大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルである。本稿では,ビデオと画像の両方に対して簡潔かつ表現力のあるトークンを生成するために設計されたビデオトークンライザMAGVIT-v2を紹介する。
参考スコア（独自算出の注目度）: 124.10880178517301
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Large Language Models (LLMs) are the dominant models for generative tasks in language, they do not perform as well as diffusion models on image and video generation. To effectively use LLMs for visual generation, one crucial component is the visual tokenizer that maps pixel-space inputs to discrete tokens appropriate for LLM learning. In this paper, we introduce MAGVIT-v2, a video tokenizer designed to generate concise and expressive tokens for both videos and images using a common token vocabulary. Equipped with this new tokenizer, we show that LLMs outperform diffusion models on standard image and video generation benchmarks including ImageNet and Kinetics. In addition, we demonstrate that our tokenizer surpasses the previously top-performing video tokenizer on two more tasks: (1) video compression comparable to the next-generation video codec (VCC) according to human evaluations, and (2) learning effective representations for action recognition tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルであるが、画像やビデオ生成における拡散モデルと同様に、機能しない。視覚生成にLLMを効果的に利用するためには、LLM学習に適した離散トークンに画素空間の入力をマッピングする視覚トークン化器が重要な要素である。本稿では,ビデオと画像の両方に対して,共通トークン語彙を用いて簡潔かつ表現豊かなトークンを生成するために設計されたビデオトークン化ツールMAGVIT-v2を紹介する。この新たなトークンを組み込んだLLMは、ImageNetやKineeticsなどの標準画像およびビデオ生成ベンチマークにおいて、拡散モデルよりも優れていることを示す。さらに,1)人間の評価による次世代ビデオコーデック(VCC)に匹敵するビデオ圧縮,(2)行動認識タスクの効果的な表現の学習,という2つのタスクにおいて,従来のトップパフォーマンスビデオコンデンサを上回っていることを示す。

関連論文リスト

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。 ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文参考訳（メタデータ） (2025-04-02T17:45:00Z)
Mimir: Improving Video Diffusion Models for Precise Text Understanding [53.72393225042688]
テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
論文参考訳（メタデータ） (2024-12-04T07:26:44Z)
FLIER: Few-shot Language Image Models Embedded with Latent Representations [2.443383032451177]
画像認識のための潜在表現(FLIER)を組み込んだFew-shot Language Image Model。まず、GPT-3からのテキスト入力で、安定拡散による画像とそれに対応する潜在表現を生成する。潜在表現を「モデル理解可能なピクセル」として、2つの畳み込み層を持つ柔軟な畳み込みニューラルネットワークを導入し、潜り込みエンコーダとする。
論文参考訳（メタデータ） (2024-10-10T06:27:46Z)
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文参考訳（メタデータ） (2024-08-30T03:16:49Z)
JPEG-LM: LLMs as Image Generators with Canonical Codec Representations [51.097213824684665]
離散化は、画像やビデオのような連続したデータを離散トークンとして表現する。画像やビデオを識別する一般的な方法は、生のピクセル値のモデリングである。正規表現を用いることで、言語生成と視覚生成の障壁を低くすることができることを示す。
論文参考訳（メタデータ） (2024-08-15T23:57:02Z)
Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文参考訳（メタデータ） (2024-03-12T17:59:51Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer [5.7254320553764]
E-ViLMはビデオ言語コーパスから表現表現を学習し、広範なビデオ言語タスクにうまく一般化することができる。我々のモデルはMSRVTTベンチマークで399.3ドル%トップ1ドル精度に達し、最先端の大規模VLアーキテクチャの精度の91.4ドル%を維持している。
論文参考訳（メタデータ） (2023-11-28T22:57:17Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文参考訳（メタデータ） (2022-09-15T17:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。