論文の概要: PIXAR: Auto-Regressive Language Modeling in Pixel Space
- arxiv url: http://arxiv.org/abs/2401.03321v2
- Date: Fri, 23 Feb 2024 19:06:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 21:41:21.280249
- Title: PIXAR: Auto-Regressive Language Modeling in Pixel Space
- Title(参考訳): PIXAR:Pixel空間における自動回帰言語モデリング
- Authors: Yintao Tai, Xiyang Liao, Alessandro Suglia, Antonio Vergari
- Abstract要約: テキスト生成を行うピクセルベース自動回帰LDMであるPIXARを紹介する。
デコーダのみで構成されたPIXARは、以前のエンコーダ・デコーダモデルと同等のパラメータ数を保ちながら、自由形式の生成タスクを実行できる。
そこで本研究では,LAMBADAでは8.1,bAbIでは8.5,PIXARでは8.1の可読性と精度を向上させる逆事前学習ステージを提案する。
- 参考スコア(独自算出の注目度): 51.530056034156374
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent work showed the possibility of building open-vocabulary large language
models (LLMs) that directly operate on pixel representations. These models are
implemented as autoencoders that reconstruct masked patches of rendered text.
However, these pixel-based LLMs are limited to discriminative tasks (e.g.,
classification) and, similar to BERT, cannot be used to generate text.
Therefore, they cannot be used for generative tasks such as free-form question
answering. In this work, we introduce PIXAR, the first pixel-based
autoregressive LLM that performs text generation. Consisting of only a decoder,
PIXAR can perform free-form generative tasks while keeping the number of
parameters on par with previous encoder-decoder models. Furthermore, we
highlight the challenges of generating text as non-noisy images and show this
is due to using a maximum likelihood objective. To overcome this problem, we
propose an adversarial pretraining stage that improves the readability and
accuracy of PIXAR by 8.1 on LAMBADA and 8.5 on bAbI -- making it comparable to
GPT-2 on text generation tasks. This paves the way to build open-vocabulary
LLMs that operate on perceptual input only and calls into question the
necessity of the usual symbolic input representation, i.e., text as
(sub)tokens.
- Abstract(参考訳): 最近の研究は、ピクセル表現を直接操作するオープン語彙大言語モデル(LLM)を構築する可能性を示した。
これらのモデルは、レンダリングされたテキストのマスクされたパッチを再構成するオートエンコーダとして実装されている。
しかし、これらのピクセルベースのLCMは識別タスク(例えば分類)に限定されており、BERTと同様、テキストを生成するには使用できない。
したがって、自由形式の質問応答のような生成タスクには使用できない。
本研究では,テキスト生成を行う最初のピクセルベースの自動回帰LDMであるPIXARを紹介する。
デコーダのみで構成されたPIXARは、以前のエンコーダ・デコーダモデルと同等のパラメータ数を保ちながら、自由形式の生成タスクを実行できる。
さらに,非ノイズ画像としてテキストを生成する際の課題を強調し,この課題が最大ラピッド目的の使用によるものであることを示す。
この問題を解決するために、LAMBADAでは8.1、bAbIでは8.5のPIXARの可読性と精度を改善し、テキスト生成タスクではGPT-2に匹敵する逆事前学習ステージを提案する。
これにより、知覚入力のみで動作するオープン語彙 LLM を構築し、通常の記号入力表現の必要性、すなわちテキストを (sub) トークンとして問うことができる。
関連論文リスト
- Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文 参考訳(メタデータ) (2024-01-22T18:59:29Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - Text Rendering Strategies for Pixel Language Models [21.36370101063954]
本稿では,テキストをPIXELモデルで描画する4つのアプローチについて検討する。
単純な文字Bigramレンダリングは、トークンレベルや多言語タスクのパフォーマンスを損なうことなく、文レベルのタスクのパフォーマンスを向上させる。
解析の結果,キャラクタ・ビッグラム・レンダリングは一貫して優れたモデルとなるが,パッチ周波数バイアスによって駆動される異方性パッチ埋め込み空間を持つことがわかった。
論文 参考訳(メタデータ) (2023-11-01T13:49:31Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Language Modelling with Pixels [29.976453396194053]
本稿では,PixelベースのLanguageであるPIXELを紹介する。
PIXELは、テキストを画像としてレンダリングする事前訓練された言語モデルであり、言語間で表現を転送することができる。
様々な非ラテン文字を含む類型的多様言語における構文的・意味的タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-14T15:20:36Z) - Language Models Can See: Plugging Visual Controls in Text Generation [48.05127160095048]
本稿では,生成プロセスにおいて視覚制御をプラグインする,MAGICと呼ばれる学習不要のフレームワークを提案する。
MAGICは、既製のLM(GPT-2)と画像グラウンドドテキスト生成のための画像テキストマッチングモデル(CLIP)を直接組み合わせた、プラグアンドプレイのフレームワークである。
ゼロショット画像キャプションの課題に対して、MAGICは最先端の手法を顕著なマージンで上回り、27倍のデコードスピードアップを達成している。
論文 参考訳(メタデータ) (2022-05-05T13:56:18Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。