論文の概要: Improving Language Understanding from Screenshots
- arxiv url: http://arxiv.org/abs/2402.14073v1
- Date: Wed, 21 Feb 2024 19:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:21:47.034601
- Title: Improving Language Understanding from Screenshots
- Title(参考訳): スクリーンショットから言語理解を改善する
- Authors: Tianyu Gao, Zirui Wang, Adithya Bhaskar, Danqi Chen
- Abstract要約: 新たな言語モデル(LM)は、テキストとイメージの両方を単一のビジュアルビュー内で処理することができる。
既存のスクリーンショット LM は、言語理解タスクのテキストのみのモデルに遅れている。
本稿では,スクリーンショット中のスクリーンショットとテキストのイメージパッチをマスクし,復元する,新しいパッチ・アンド・テキスト予測手法を提案する。
- 参考スコア(独自算出の注目度): 56.40401271149811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An emerging family of language models (LMs), capable of processing both text
and images within a single visual view, has the promise to unlock complex tasks
such as chart understanding and UI navigation. We refer to these models as
screenshot language models. Despite their appeal, existing screenshot LMs
substantially lag behind text-only models on language understanding tasks. To
close this gap, we adopt a simplified setting where the model inputs are
plain-text-rendered screenshots, and we focus on improving the text ability of
screenshot LMs. We propose a novel Patch-and-Text Prediction (PTP) objective,
which masks and recovers both image patches of screenshots and text within
screenshots. We also conduct extensive ablation studies on masking rates and
patch sizes, as well as designs for improving training stability. Our
pre-trained model, while solely taking visual inputs, achieves comparable
performance with BERT on 6 out of 8 GLUE tasks (within 2%) and improves up to
8% over prior work. Additionally, we extend PTP to train autoregressive
screenshot LMs and demonstrate its effectiveness--our models can significantly
reduce perplexity by utilizing the screenshot context. Together, we hope our
findings can inspire future research on developing powerful screenshot LMs and
extending their reach to broader applications.
- Abstract(参考訳): 単一のビジュアルビュー内でテキストとイメージの両方を処理できる新しい言語モデル(LM)は、チャート理解やUIナビゲーションといった複雑なタスクをアンロックする。
これらのモデルをスクリーンショット言語モデルと呼ぶ。
その魅力にもかかわらず、既存のスクリーンショット LM は言語理解タスクのテキストのみのモデルよりもかなり遅れている。
このギャップを埋めるために、モデル入力がプレーンテキストレンダリングされたスクリーンショットである簡易的な設定を採用し、スクリーンショットLMのテキスト能力の向上に注力する。
本稿では,スクリーンショット中のスクリーンショットとテキストのイメージパッチをマスクし,復元する,新しいPatch-and-Text Prediction (PTP) 手法を提案する。
また,マスキング率とパッチサイズ,トレーニング安定性向上のための設計について広範なアブレーション研究を行った。
我々の事前訓練されたモデルは、単に視覚的な入力を受けながら、8つのGLUEタスクのうち6つ(2%)でBERTと同等のパフォーマンスを達成し、以前の作業よりも最大8%改善します。
さらに,PTPを拡張して自己回帰スクリーンショットLMをトレーニングし,その有効性を示す。
共に、我々の発見が強力なスクリーンショット LM を開発し、広範囲のアプリケーションにリーチを広げるという将来の研究を刺激することを期待している。
関連論文リスト
- Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - Enhancing Vision-Language Pre-training with Rich Supervisions [60.269564094889446]
本稿では,ScreenShotsによる事前学習の強化(S4)を提案する。
S4は、大規模なWebスクリーンショットレンダリングのデータを使用したビジョンランゲージモデルのための、新しい事前トレーニングパラダイムである。
提案手法は,現在のスクリーンショット事前学習目標と比較して,9種類の下流タスクにおいて,画像からテキストまでのモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-03-05T22:14:58Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen
Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。
近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。
そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:08:55Z) - Visual Grounding Strategies for Text-Only Natural Language Processing [1.2183405753834562]
BERTのマルチモーダル拡張は、視覚的質問回答などのマルチモーダルタスクに最先端の結果をもたらすテキストと画像の共同モデリングを可能にします。
本稿では,マルチモーダル事前学習がテキスト処理精度を向上させる基礎となることを期待して,純粋にテキストタスクにマルチモーダルモデリングを利用する。
転送グラウンドと呼ばれる最初のタイプの戦略は、テキストのみのタスクにマルチモーダルモデルを適用し、プレースホルダーを使って画像入力を置き換える。
2つ目は「連想的接地」と呼ばれ、画像検索を利用してテキストと関連画像のマッチングを行う。
論文 参考訳(メタデータ) (2021-03-25T16:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。