論文の概要: Visually-augmented pretrained language models for NLP tasks without
images
- arxiv url: http://arxiv.org/abs/2212.07937v2
- Date: Fri, 26 May 2023 14:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 23:10:44.273645
- Title: Visually-augmented pretrained language models for NLP tasks without
images
- Title(参考訳): 画像のないNLPタスクのための視覚的な事前学習言語モデル
- Authors: Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Qinyu Zhang, and Ji-Rong Wen
- Abstract要約: 既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
- 参考スコア(独自算出の注目度): 77.74849855049523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although pre-trained language models~(PLMs) have shown impressive performance
by text-only self-supervised training, they are found lack of visual semantics
or commonsense. Existing solutions often rely on explicit images for visual
knowledge augmentation (requiring time-consuming retrieval or generation), and
they also conduct the augmentation for the whole input text, without
considering whether it is actually needed in specific inputs or tasks. To
address these issues, we propose a novel \textbf{V}isually-\textbf{A}ugmented
fine-tuning approach that can be generally applied to various PLMs or NLP
tasks, \textbf{W}ithout using any retrieved or generated \textbf{I}mages,
namely \textbf{VAWI}. Experimental results show that our approach can
consistently improve the performance of BERT, RoBERTa, BART, and T5 at
different scales, and outperform several competitive baselines on ten tasks.
Our codes and data are publicly available
at~\url{https://github.com/RUCAIBox/VAWI}.
- Abstract(参考訳): 事前訓練された言語モデル~(PLM)は、テキストのみによる自己教師付きトレーニングによる印象的なパフォーマンスを示しているが、視覚的意味論や常識は欠如している。
既存のソリューションは、視覚的知識増強(時間を要する検索や生成)のために明示的なイメージに依存することが多く、特定の入力やタスクに実際に必要かどうかを考慮せずに、入力テキスト全体の拡張も行う。
これらの問題に対処するために、様々な PLM や NLP タスクに適用可能な新しい \textbf{V}isually-\textbf{A}ugmented fine-tuning 手法、検索または生成された \textbf{I}mages、すなわち \textbf{VAWI} を提案する。
実験結果から,BERT,RoBERTa,BART,T5の異なるスケールでの性能向上が図られ,10タスクにおける競争基準よりも優れていた。
私たちのコードとデータは、~\url{https://github.com/RUCAIBox/VAWI}で公開されています。
関連論文リスト
- Improving Visual Commonsense in Language Models via Multiple Image Generation [41.565399860320966]
既存の大規模言語モデル(LLM)は、主にテキストデータのみを使用して訓練されている。
視覚言語モデルは視覚的に指向するタスクに優れており、基本的なコモンセンス推論のような視覚的でないタスクでは失敗することが多い。
この分散は、基本的なテキストベースの言語推論と堅牢な視覚的理解の統合という、重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-06-19T15:17:10Z) - Tackling VQA with Pretrained Foundation Models without Further Training [0.0]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて最先端の結果を得た。
これらのLCMの能力により、研究者は視覚的質問回答(VQA)の使用方法を模索している。
本稿では、VQA問題を解決するために、事前訓練されたLLMと他の基礎モデルを組み合わせる方法を検討する。
論文 参考訳(メタデータ) (2023-09-27T08:35:24Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining
on Visual Language Understanding [13.300199242824934]
視覚的・言語的な事前学習が、暗黙的な視覚的推論を含むテキストのみのタスクのパフォーマンスを向上させるかどうかを検討する。
本稿では,テキストエンコーダモデルの視覚的推論能力を探索するための視覚言語理解タスクを提案する。
また,テキストのみのタスクにCLIPなどのモデルを適用するための新しいゼロショット知識探索手法であるStroop Probingも提案する。
論文 参考訳(メタデータ) (2023-03-21T17:30:40Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - I Can't Believe There's No Images! Learning Visual Tasks Using only
Language Supervision [32.49636188029509]
4つのタスクのテキストトレーニングデータのみを用いてモデルを作成する。
これらのモデルは、画像上で訓練されたモデルに近いパフォーマンスを示す。
画像データと人為的な言語データを用いない,多種多様なスタイリスティックな画像キャプションモデルについて紹介する。
論文 参考訳(メタデータ) (2022-11-17T18:52:19Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。