論文の概要: PIXAR: Auto-Regressive Language Modeling in Pixel Space
- arxiv url: http://arxiv.org/abs/2401.03321v1
- Date: Sat, 6 Jan 2024 22:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 19:11:23.549201
- Title: PIXAR: Auto-Regressive Language Modeling in Pixel Space
- Title(参考訳): PIXAR:Pixel空間における自動回帰言語モデリング
- Authors: Yintao Tai, Xiyang Liao, Alessandro Suglia, Antonio Vergari
- Abstract要約: PIXARは,入力テキストと出力テキストの両方に予め定義された語彙に依存しない,最初のピクセルベースの自動回帰言語である。
PIXARは、従来のエンコーダ・デコーダモデルと同等のテキスト表現学習性能を維持しながら、自由形式の生成タスクに答えることができる。
- 参考スコア(独自算出の注目度): 51.530056034156374
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent works showed the possibility of building open-vocabulary large
language models (LLMs) that directly operate on pixel representations and are
implemented as encoder-decoder models that reconstruct masked image patches of
rendered text. However, these pixel-based LLMs are limited to autoencoding
tasks and cannot generate new text as images. As such, they cannot be used for
open-answer or generative language tasks. In this work, we overcome this
limitation and introduce PIXAR, the first pixel-based autoregressive LLM that
does not rely on a pre-defined vocabulary for both input and output text.
Consisting of only a decoder, PIXAR can answer free-form generative tasks while
keeping the text representation learning performance on par with previous
encoder-decoder models. Furthermore, we highlight the challenges to
autoregressively generate non-blurred text as images and link this to the usual
maximum likelihood objective. We propose a simple adversarial pretraining that
significantly improves the readability and performance of PIXAR making it
comparable to GPT2 on short text generation tasks. This paves the way to
building open-vocabulary LLMs that are usable for free-form generative tasks
and questions the necessity of the usual symbolic input representation -- text
as tokens -- for these challenging tasks.
- Abstract(参考訳): 近年の研究では、ピクセル表現を直接操作し、描画されたテキストのマスク画像パッチを再構成するエンコーダデコーダモデルとして実装されるオープン語彙大言語モデル(LLM)を構築する可能性を示している。
しかし、これらのピクセルベースのllmはタスクの自動エンコーディングに限定され、画像として新しいテキストを生成することができない。
そのため、オープンソースの言語タスクや生成言語タスクには使用できない。
本稿では,この制限を克服し,入力文と出力文の両方の既定語彙に依存しない最初の画素ベース自己回帰llmであるpixarを導入する。
デコーダのみで構成されるpixarは、テキスト表現学習性能を従来のエンコーダ-デコーダモデルと同等に保ちながら、自由形式の生成タスクに答えることができる。
さらに,不平文を画像として自己回帰的に生成し,これを通常の最大可能性目標にリンクするという課題を浮き彫りにする。
本稿では,PIXARの可読性と性能を向上し,短いテキスト生成タスクにおいてGPT2に匹敵する簡易な対人事前学習を提案する。
これにより、自由形式の生成タスクに使用可能なオープンな語彙 LLM の構築方法が舗装され、これらの課題に対して通常のシンボル入力表現 -- トークンとしてのテキスト -- の必要性が疑問視される。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation [21.154973705998945]
既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。
大規模言語モデル(LLM)は多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現する。
LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。
論文 参考訳(メタデータ) (2024-05-21T16:35:02Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [150.57983348059528]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。
T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。
本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - Text Rendering Strategies for Pixel Language Models [21.36370101063954]
本稿では,テキストをPIXELモデルで描画する4つのアプローチについて検討する。
単純な文字Bigramレンダリングは、トークンレベルや多言語タスクのパフォーマンスを損なうことなく、文レベルのタスクのパフォーマンスを向上させる。
解析の結果,キャラクタ・ビッグラム・レンダリングは一貫して優れたモデルとなるが,パッチ周波数バイアスによって駆動される異方性パッチ埋め込み空間を持つことがわかった。
論文 参考訳(メタデータ) (2023-11-01T13:49:31Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Language Modelling with Pixels [29.976453396194053]
本稿では,PixelベースのLanguageであるPIXELを紹介する。
PIXELは、テキストを画像としてレンダリングする事前訓練された言語モデルであり、言語間で表現を転送することができる。
様々な非ラテン文字を含む類型的多様言語における構文的・意味的タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-14T15:20:36Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。