Fugu-MT 論文翻訳(概要): PIXAR: Auto-Regressive Language Modeling in Pixel Space

論文の概要: PIXAR: Auto-Regressive Language Modeling in Pixel Space

arxiv url: http://arxiv.org/abs/2401.03321v2
Date: Fri, 23 Feb 2024 19:06:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 21:41:21.280249
Title: PIXAR: Auto-Regressive Language Modeling in Pixel Space
Title（参考訳）: PIXAR:Pixel空間における自動回帰言語モデリング
Authors: Yintao Tai, Xiyang Liao, Alessandro Suglia, Antonio Vergari
Abstract要約: テキスト生成を行うピクセルベース自動回帰LDMであるPIXARを紹介する。デコーダのみで構成されたPIXARは、以前のエンコーダ・デコーダモデルと同等のパラメータ数を保ちながら、自由形式の生成タスクを実行できる。そこで本研究では,LAMBADAでは8.1,bAbIでは8.5,PIXARでは8.1の可読性と精度を向上させる逆事前学習ステージを提案する。
参考スコア（独自算出の注目度）: 51.530056034156374
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent work showed the possibility of building open-vocabulary large language models (LLMs) that directly operate on pixel representations. These models are implemented as autoencoders that reconstruct masked patches of rendered text. However, these pixel-based LLMs are limited to discriminative tasks (e.g., classification) and, similar to BERT, cannot be used to generate text. Therefore, they cannot be used for generative tasks such as free-form question answering. In this work, we introduce PIXAR, the first pixel-based autoregressive LLM that performs text generation. Consisting of only a decoder, PIXAR can perform free-form generative tasks while keeping the number of parameters on par with previous encoder-decoder models. Furthermore, we highlight the challenges of generating text as non-noisy images and show this is due to using a maximum likelihood objective. To overcome this problem, we propose an adversarial pretraining stage that improves the readability and accuracy of PIXAR by 8.1 on LAMBADA and 8.5 on bAbI -- making it comparable to GPT-2 on text generation tasks. This paves the way to build open-vocabulary LLMs that operate on perceptual input only and calls into question the necessity of the usual symbolic input representation, i.e., text as (sub)tokens.
Abstract（参考訳）: 最近の研究は、ピクセル表現を直接操作するオープン語彙大言語モデル(LLM)を構築する可能性を示した。これらのモデルは、レンダリングされたテキストのマスクされたパッチを再構成するオートエンコーダとして実装されている。しかし、これらのピクセルベースのLCMは識別タスク(例えば分類)に限定されており、BERTと同様、テキストを生成するには使用できない。したがって、自由形式の質問応答のような生成タスクには使用できない。本研究では,テキスト生成を行う最初のピクセルベースの自動回帰LDMであるPIXARを紹介する。デコーダのみで構成されたPIXARは、以前のエンコーダ・デコーダモデルと同等のパラメータ数を保ちながら、自由形式の生成タスクを実行できる。さらに,非ノイズ画像としてテキストを生成する際の課題を強調し,この課題が最大ラピッド目的の使用によるものであることを示す。この問題を解決するために、LAMBADAでは8.1、bAbIでは8.5のPIXARの可読性と精度を改善し、テキスト生成タスクではGPT-2に匹敵する逆事前学習ステージを提案する。これにより、知覚入力のみで動作するオープン語彙 LLM を構築し、通常の記号入力表現の必要性、すなわちテキストを (sub) トークンとして問うことができる。

関連論文リスト

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
Mimir: Improving Video Diffusion Models for Precise Text Understanding [53.72393225042688]
テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
論文参考訳（メタデータ） (2024-12-04T07:26:44Z)
Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。 STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。 DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文参考訳（メタデータ） (2024-08-11T06:36:42Z)
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。 PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文参考訳（メタデータ） (2024-06-11T10:06:53Z)
An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation [21.154973705998945]
既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。大規模言語モデル(LLM)は多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現する。 LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。
論文参考訳（メタデータ） (2024-05-21T16:35:02Z)
Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [150.57983348059528]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。 T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文参考訳（メタデータ） (2024-03-28T02:35:53Z)
Text Rendering Strategies for Pixel Language Models [21.36370101063954]
本稿では,テキストをPIXELモデルで描画する4つのアプローチについて検討する。単純な文字Bigramレンダリングは、トークンレベルや多言語タスクのパフォーマンスを損なうことなく、文レベルのタスクのパフォーマンスを向上させる。解析の結果,キャラクタ・ビッグラム・レンダリングは一貫して優れたモデルとなるが,パッチ周波数バイアスによって駆動される異方性パッチ埋め込み空間を持つことがわかった。
論文参考訳（メタデータ） (2023-11-01T13:49:31Z)
Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。 LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文参考訳（メタデータ） (2023-02-02T06:38:44Z)
Language Modelling with Pixels [29.976453396194053]
本稿では,PixelベースのLanguageであるPIXELを紹介する。 PIXELは、テキストを画像としてレンダリングする事前訓練された言語モデルであり、言語間で表現を転送することができる。様々な非ラテン文字を含む類型的多様言語における構文的・意味的タスクについて検討した。
論文参考訳（メタデータ） (2022-07-14T15:20:36Z)
XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。 XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文参考訳（メタデータ） (2020-03-03T12:13:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。