論文の概要: Visually-augmented pretrained language models for NLP tasks without
images
- arxiv url: http://arxiv.org/abs/2212.07937v1
- Date: Thu, 15 Dec 2022 16:13:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:42:33.741093
- Title: Visually-augmented pretrained language models for NLP tasks without
images
- Title(参考訳): 画像のないNLPタスクのための視覚的な事前学習言語モデル
- Authors: Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Qinyu Zhang, and Ji-Rong Wen
- Abstract要約: 本稿では,事前学習型言語モデル(PLM)のための視覚的微調整手法を提案する。
我々はまず,3つの異なる手法が提案されているトークンセレクタを用いて,入力テキストから視覚的な単語(VH-words)を識別する。
大規模コーパス上の視覚言語アライメントタスクによって事前訓練されているため、アライメントされたテキスト表現に視覚意味論を注入することができる。
- 参考スコア(独自算出の注目度): 77.74849855049523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although pre-trained language models (PLMs) have shown impressive performance
by text-only self-supervised training, they are found lack of visual semantics
or commonsense, e.g., sizes, shapes, and colors of commonplace objects.
Existing solutions often rely on explicit images for visual knowledge
augmentation (requiring time-consuming retrieval or generation), and they also
conduct the augmentation for the whole input text, without considering whether
it is actually needed in specific inputs or tasks. To address these issues, we
propose a novel visually-augmented fine-tuning approach that can be generally
applied to various PLMs or NLP tasks, without using any retrieved or generated
images, namely VAWI. Specifically, we first identify the visually-hungry words
(VH-words) from input text via a token selector, where three different methods
have been proposed, including syntax-, attention- and learning-based
strategies. Then, we adopt a fixed CLIP text encoder to generate the
visually-augmented representations of these VH-words. As it has been
pre-trained by vision-language alignment task on the large-scale corpus, it is
capable of injecting visual semantics into the aligned text representations.
Finally, the visually-augmented features will be fused and transformed into the
pre-designed visual prompts based on VH-words, which can be inserted into PLMs
to enrich the visual semantics in word representations. We conduct extensive
experiments on ten NLP tasks, i.e., GLUE benchmark, CommonsenseQA, CommonGen,
and SNLI-VE. Experimental results show that our approach can consistently
improve the performance of BERT, RoBERTa, BART, and T5 at different scales, and
outperform several competitive baselines significantly. Our codes and data are
publicly available at~\url{https://github.com/RUCAIBox/VAWI}.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、テキストのみによる自己教師付きトレーニングによって印象的なパフォーマンスを示しているが、視覚的意味論やコモンセンス(例えば、サイズ、形状、コモンプレースオブジェクトの色など)は欠如している。
既存のソリューションは、視覚的知識増強(時間を要する検索や生成)のために明示的なイメージに依存することが多く、特定の入力やタスクに実際に必要かどうかを考慮せずに、入力テキスト全体の拡張も行う。
これらの課題に対処するために,検索画像や生成画像,すなわちVAWIを使わずに,様々なPLMやNLPタスクに適用可能な,視覚的な微調整手法を提案する。
具体的には,まずトークンセレクタを用いて入力テキストから視覚的なhungry単語(vh-words)を識別し,構文・注意・学習に基づく3つの方法が提案されている。
次に、固定されたCLIPテキストエンコーダを用いて、これらのVHワードの視覚的に拡張された表現を生成する。
大規模コーパス上の視覚言語アライメントタスクによって事前訓練されているため、アライメントされたテキスト表現に視覚意味論を注入することができる。
最後に、視覚的に拡張された機能は、VHワードに基づいて事前に設計された視覚的プロンプトに融合され、変換される。
我々は,10個のNLPタスク,すなわちGLUEベンチマーク,CommonsenseQA,CommonGen,SNLI-VEについて広範な実験を行った。
実験結果から,BERT,RoBERTa,BART,T5を異なるスケールで一貫した性能向上が達成され,競争力に優れる可能性が示唆された。
私たちのコードとデータは、~\url{https://github.com/RUCAIBox/VAWI}で公開されています。
関連論文リスト
- Improving Visual Commonsense in Language Models via Multiple Image Generation [41.565399860320966]
既存の大規模言語モデル(LLM)は、主にテキストデータのみを使用して訓練されている。
視覚言語モデルは視覚的に指向するタスクに優れており、基本的なコモンセンス推論のような視覚的でないタスクでは失敗することが多い。
この分散は、基本的なテキストベースの言語推論と堅牢な視覚的理解の統合という、重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-06-19T15:17:10Z) - Tackling VQA with Pretrained Foundation Models without Further Training [0.0]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて最先端の結果を得た。
これらのLCMの能力により、研究者は視覚的質問回答(VQA)の使用方法を模索している。
本稿では、VQA問題を解決するために、事前訓練されたLLMと他の基礎モデルを組み合わせる方法を検討する。
論文 参考訳(メタデータ) (2023-09-27T08:35:24Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining
on Visual Language Understanding [13.300199242824934]
視覚的・言語的な事前学習が、暗黙的な視覚的推論を含むテキストのみのタスクのパフォーマンスを向上させるかどうかを検討する。
本稿では,テキストエンコーダモデルの視覚的推論能力を探索するための視覚言語理解タスクを提案する。
また,テキストのみのタスクにCLIPなどのモデルを適用するための新しいゼロショット知識探索手法であるStroop Probingも提案する。
論文 参考訳(メタデータ) (2023-03-21T17:30:40Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - I Can't Believe There's No Images! Learning Visual Tasks Using only
Language Supervision [32.49636188029509]
4つのタスクのテキストトレーニングデータのみを用いてモデルを作成する。
これらのモデルは、画像上で訓練されたモデルに近いパフォーマンスを示す。
画像データと人為的な言語データを用いない,多種多様なスタイリスティックな画像キャプションモデルについて紹介する。
論文 参考訳(メタデータ) (2022-11-17T18:52:19Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。