論文の概要: Pixology: Probing the Linguistic and Visual Capabilities of Pixel-based Language Models
- arxiv url: http://arxiv.org/abs/2410.12011v1
- Date: Tue, 15 Oct 2024 19:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:56.178005
- Title: Pixology: Probing the Linguistic and Visual Capabilities of Pixel-based Language Models
- Title(参考訳): ピクトロロジー:Pixelベースの言語モデルの言語的・視覚的能力を探る
- Authors: Kushal Tatariya, Vladimir Araujo, Thomas Bauwens, Miryam de Lhoneux,
- Abstract要約: Pixelベースの言語モデルは、サブワードベースの言語モデリングに代わる魅力的な選択肢として登場した。
PIXELは、レンダリングされたテキストで事前トレーニングされたビジョントランスフォーマーである。
- 参考スコア(独自算出の注目度): 7.356870418870544
- License:
- Abstract: Pixel-based language models have emerged as a compelling alternative to subword-based language modelling, particularly because they can represent virtually any script. PIXEL, a canonical example of such a model, is a vision transformer that has been pre-trained on rendered text. While PIXEL has shown promising cross-script transfer abilities and robustness to orthographic perturbations, it falls short of outperforming monolingual subword counterparts like BERT in most other contexts. This discrepancy raises questions about the amount of linguistic knowledge learnt by these models and whether their performance in language tasks stems more from their visual capabilities than their linguistic ones. To explore this, we probe PIXEL using a variety of linguistic and visual tasks to assess its position on the vision-to-language spectrum. Our findings reveal a substantial gap between the model's visual and linguistic understanding. The lower layers of PIXEL predominantly capture superficial visual features, whereas the higher layers gradually learn more syntactic and semantic abstractions. Additionally, we examine variants of PIXEL trained with different text rendering strategies, discovering that introducing certain orthographic constraints at the input level can facilitate earlier learning of surface-level features. With this study, we hope to provide insights that aid the further development of pixel-based language models.
- Abstract(参考訳): Pixelベースの言語モデルは、特に事実上どんなスクリプトでも表現できるため、サブワードベースの言語モデリングに代わる魅力的な代替品として登場した。
このようなモデルの標準的な例であるPIXELは、レンダリングされたテキストで事前訓練された視覚変換器である。
PIXELは、正書法的な摂動に対して有望なクロススクリプト転送能力と堅牢性を示してきたが、他のほとんどの文脈ではBERTのような単言語的なサブワードよりも優れていなかった。
この不一致は、これらのモデルによって学習された言語知識の量と、それらの言語タスクにおけるパフォーマンスが、言語知識よりも視覚能力に起因しているかどうかについての疑問を提起する。
そこで我々は,様々な言語的・視覚的なタスクを用いてPIXELを探索し,その位置を視覚-言語スペクトルで評価する。
この結果から, モデルの視覚的理解と言語的理解の間には, かなりのギャップがあることが判明した。
PIXELの下位層は主に表面的な視覚的特徴を捉えているのに対し、上位層は徐々に構文的・意味的抽象化を学習している。
さらに、異なるテキストレンダリング戦略で訓練されたPIXELの変種について検討し、入力レベルで特定の正書法制約を導入することで、表面的特徴の早期学習が容易になることを発見した。
本研究は,画素ベース言語モデルのさらなる発展を支援する知見を提供することを期待する。
関連論文リスト
- Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling [47.7950860342515]
LexiContrastive Grounding (LCG)は、視覚的監督を利用してテキスト表現を改善する言語学習手法である。
LCGは学習効率において標準言語のみのモデルより優れている。
CLIP、GIT、Flamingo、Vokenizationなど、視覚と言語による学習手順を改善する。
論文 参考訳(メタデータ) (2024-03-21T16:52:01Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。
Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。
画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文 参考訳(メタデータ) (2023-08-31T12:46:36Z) - PaLI-X: On Scaling up a Multilingual Vision and Language Model [166.9837904115951]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。
我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。
複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文 参考訳(メタデータ) (2023-05-29T18:58:38Z) - Language Modelling with Pixels [29.976453396194053]
本稿では,PixelベースのLanguageであるPIXELを紹介する。
PIXELは、テキストを画像としてレンダリングする事前訓練された言語モデルであり、言語間で表現を転送することができる。
様々な非ラテン文字を含む類型的多様言語における構文的・意味的タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-14T15:20:36Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。