論文の概要: Language Modelling with Pixels
- arxiv url: http://arxiv.org/abs/2207.06991v2
- Date: Wed, 26 Apr 2023 15:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 18:25:45.011932
- Title: Language Modelling with Pixels
- Title(参考訳): Pixelによる言語モデリング
- Authors: Phillip Rust, Jonas F. Lotz, Emanuele Bugliarello, Elizabeth Salesky,
Miryam de Lhoneux, Desmond Elliott
- Abstract要約: 本稿では,PixelベースのLanguageであるPIXELを紹介する。
PIXELは、テキストを画像としてレンダリングする事前訓練された言語モデルであり、言語間で表現を転送することができる。
様々な非ラテン文字を含む類型的多様言語における構文的・意味的タスクについて検討した。
- 参考スコア(独自算出の注目度): 29.976453396194053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are defined over a finite set of inputs, which creates a
vocabulary bottleneck when we attempt to scale the number of supported
languages. Tackling this bottleneck results in a trade-off between what can be
represented in the embedding matrix and computational issues in the output
layer. This paper introduces PIXEL, the Pixel-based Encoder of Language, which
suffers from neither of these issues. PIXEL is a pretrained language model that
renders text as images, making it possible to transfer representations across
languages based on orthographic similarity or the co-activation of pixels.
PIXEL is trained to reconstruct the pixels of masked patches instead of
predicting a distribution over tokens. We pretrain the 86M parameter PIXEL
model on the same English data as BERT and evaluate on syntactic and semantic
tasks in typologically diverse languages, including various non-Latin scripts.
We find that PIXEL substantially outperforms BERT on syntactic and semantic
processing tasks on scripts that are not found in the pretraining data, but
PIXEL is slightly weaker than BERT when working with Latin scripts.
Furthermore, we find that PIXEL is more robust than BERT to orthographic
attacks and linguistic code-switching, further confirming the benefits of
modelling language with pixels.
- Abstract(参考訳): 言語モデルは入力の有限セット上で定義され、サポート対象言語の数を拡大しようとすると語彙的ボトルネックが生じる。
このボトルネックに取り組むと、埋め込み行列で表現できるものと出力層での計算問題との間にトレードオフが生じる。
本稿では,画素ベースの言語エンコーダであるpixelについて述べる。
PIXELは、テキストを画像としてレンダリングする事前訓練された言語モデルであり、正書法的な類似性やピクセルの共活性化に基づく言語間の表現の転送を可能にする。
PIXELはトークン上の分布を予測する代わりに、マスクされたパッチのピクセルを再構築するように訓練されている。
我々は、BERTと同じ英語データに基づいて86MパラメータPIXELモデルを事前学習し、様々な非ラテン文字を含む様々な言語で構文的および意味的タスクを評価する。
PIXELは、事前学習データには見つからないスクリプトの構文および意味処理タスクにおいてBERTを大幅に上回るが、ラテン文字で作業する場合、PIXELはBERTよりもわずかに弱い。
さらに、PIXELは正書法攻撃や言語コードスイッチングに対してBERTよりも堅牢であり、さらにピクセルによる言語モデリングの利点を裏付ける。
関連論文リスト
- Pixology: Probing the Linguistic and Visual Capabilities of Pixel-based Language Models [7.356870418870544]
Pixelベースの言語モデルは、サブワードベースの言語モデリングに代わる魅力的な選択肢として登場した。
PIXELは、レンダリングされたテキストで事前トレーニングされたビジョントランスフォーマーである。
論文 参考訳(メタデータ) (2024-10-15T19:21:23Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - PIXAR: Auto-Regressive Language Modeling in Pixel Space [51.530056034156374]
テキスト生成を行うピクセルベース自動回帰LDMであるPIXARを紹介する。
デコーダのみで構成されたPIXARは、以前のエンコーダ・デコーダモデルと同等のパラメータ数を保ちながら、自由形式の生成タスクを実行できる。
そこで本研究では,LAMBADAでは8.1,bAbIでは8.5,PIXARでは8.1の可読性と精度を向上させる逆事前学習ステージを提案する。
論文 参考訳(メタデータ) (2024-01-06T22:49:38Z) - Text Rendering Strategies for Pixel Language Models [21.36370101063954]
本稿では,テキストをPIXELモデルで描画する4つのアプローチについて検討する。
単純な文字Bigramレンダリングは、トークンレベルや多言語タスクのパフォーマンスを損なうことなく、文レベルのタスクのパフォーマンスを向上させる。
解析の結果,キャラクタ・ビッグラム・レンダリングは一貫して優れたモデルとなるが,パッチ周波数バイアスによって駆動される異方性パッチ埋め込み空間を持つことがわかった。
論文 参考訳(メタデータ) (2023-11-01T13:49:31Z) - Multilingual Pixel Representations for Translation and Effective
Cross-lingual Transfer [25.575718310334643]
画素表現を用いた多言語機械翻訳モデルを効果的に学習する方法を紹介し,実証する。
文字間のパラメータ共有など,画素表現のさまざまな特性について検討し,前向きな転送に繋がる部分の理解を深める。
これらの特性は、未知のスクリプトへのシームレスな言語間移動を可能にするだけでなく、語彙拡張のような代替手段よりも、ピクセル表現をよりデータ効率の良いものにしている。
論文 参考訳(メタデータ) (2023-05-23T17:26:50Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal
Transformers [46.275416873403614]
我々はPixel-BERTを提案し,画像画素とテキストとの整合性を深層マルチモーダル変換器で学習し,視覚と言語の埋め込みを共同で学習する。
私たちのアプローチでは、VQA(Visual Question Answering)、画像テキスト検索、Natural Language for Visual Reasoning for Real(NLVR)など、下流タスクの最先端技術を実現しています。
論文 参考訳(メタデータ) (2020-04-02T07:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。