論文の概要: JPEG-LM: LLMs as Image Generators with Canonical Codec Representations
- arxiv url: http://arxiv.org/abs/2408.08459v2
- Date: Wed, 21 Aug 2024 00:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 12:00:34.823161
- Title: JPEG-LM: LLMs as Image Generators with Canonical Codec Representations
- Title(参考訳): JPEG-LM:標準コーデック表現を用いたイメージジェネレータとしてのLCM
- Authors: Xiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov,
- Abstract要約: 離散化は、画像やビデオのような連続したデータを離散トークンとして表現する。
画像やビデオを識別する一般的な方法は、生のピクセル値のモデリングである。
正規表現を用いることで、言語生成と視覚生成の障壁を低くすることができることを示す。
- 参考スコア(独自算出の注目度): 51.097213824684665
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work in image and video generation has been adopting the autoregressive LLM architecture due to its generality and potentially easy integration into multi-modal systems. The crux of applying autoregressive training in language generation to visual generation is discretization -- representing continuous data like images and videos as discrete tokens. Common methods of discretizing images and videos include modeling raw pixel values, which are prohibitively lengthy, or vector quantization, which requires convoluted pre-hoc training. In this work, we propose to directly model images and videos as compressed files saved on computers via canonical codecs (e.g., JPEG, AVC/H.264). Using the default Llama architecture without any vision-specific modifications, we pretrain JPEG-LM from scratch to generate images (and AVC-LM to generate videos as a proof of concept), by directly outputting compressed file bytes in JPEG and AVC formats. Evaluation of image generation shows that this simple and straightforward approach is more effective than pixel-based modeling and sophisticated vector quantization baselines (on which our method yields a 31% reduction in FID). Our analysis shows that JPEG-LM has an especial advantage over vector quantization models in generating long-tail visual elements. Overall, we show that using canonical codec representations can help lower the barriers between language generation and visual generation, facilitating future research on multi-modal language/image/video LLMs.
- Abstract(参考訳): 画像およびビデオ生成における最近の研究は、その汎用性と、マルチモーダルシステムへの容易な統合により、自己回帰型LLMアーキテクチャを採用する。
言語生成における自己回帰トレーニングを視覚的生成に適用する上での要点は、画像やビデオなどの連続したデータを離散トークンとして表現する、離散化である。
画像やビデオの離散化の一般的な方法は、不当に長めである生のピクセル値のモデリングや、複雑なプレホックトレーニングを必要とするベクトル量子化である。
本研究では,画像やビデオを直接,標準コーデック(JPEG,AVC/H.264)を介してコンピュータ上に保存した圧縮ファイルとしてモデル化することを提案する。
画像を生成するためにJPEG-LMをスクラッチから事前訓練し(AVC-LMは概念実証としてビデオを生成する)、JPEGおよびAVCフォーマットで圧縮されたファイルバイトを直接出力する。
画像生成の評価は、この単純で簡単なアプローチは、ピクセルベースモデリングや高度なベクトル量子化ベースライン(FIDの31%削減をもたらす)よりも効果的であることを示している。
解析の結果,JPEG-LMはベクトル量子化モデルよりも長期視覚要素の生成に有利であることが示唆された。
全体として、標準コーデック表現を用いることで、言語生成と視覚生成の間の障壁を減らし、マルチモーダル言語/画像/ビデオLLMの今後の研究を促進することが示される。
関連論文リスト
- VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:59Z) - An Image Grid Can Be Worth a Video: Zero-shot Video Question Answering Using a VLM [2.387054460181102]
本稿では,単一の視覚言語モデル(VLM)のみを利用する,シンプルで斬新な戦略を提案する。
ビデオ理解の本質は、時間的側面と各フレームの空間的詳細を包括的に管理することにある。
提案した画像グリッドビジョン言語モデル (IG-VLM) が既存の10のベンチマークのうち9つの手法を上回り, 提案手法を網羅した。
論文 参考訳(メタデータ) (2024-03-27T09:48:23Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation [122.63617171522316]
大規模言語モデル(LLM)は、言語における生成タスクの主要なモデルである。
本稿では,ビデオと画像の両方に対して簡潔かつ表現力のあるトークンを生成するために設計されたビデオトークンライザMAGVIT-v2を紹介する。
論文 参考訳(メタデータ) (2023-10-09T14:10:29Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。