Fugu-MT 論文翻訳(概要): Visually-augmented pretrained language models for NLP tasks without images

論文の概要: Visually-augmented pretrained language models for NLP tasks without images

arxiv url: http://arxiv.org/abs/2212.07937v1
Date: Thu, 15 Dec 2022 16:13:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 16:42:33.741093
Title: Visually-augmented pretrained language models for NLP tasks without images
Title（参考訳）: 画像のないNLPタスクのための視覚的な事前学習言語モデル
Authors: Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Qinyu Zhang, and Ji-Rong Wen
Abstract要約: 本稿では,事前学習型言語モデル(PLM)のための視覚的微調整手法を提案する。我々はまず,3つの異なる手法が提案されているトークンセレクタを用いて,入力テキストから視覚的な単語(VH-words)を識別する。大規模コーパス上の視覚言語アライメントタスクによって事前訓練されているため、アライメントされたテキスト表現に視覚意味論を注入することができる。
参考スコア（独自算出の注目度）: 77.74849855049523
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although pre-trained language models (PLMs) have shown impressive performance by text-only self-supervised training, they are found lack of visual semantics or commonsense, e.g., sizes, shapes, and colors of commonplace objects. Existing solutions often rely on explicit images for visual knowledge augmentation (requiring time-consuming retrieval or generation), and they also conduct the augmentation for the whole input text, without considering whether it is actually needed in specific inputs or tasks. To address these issues, we propose a novel visually-augmented fine-tuning approach that can be generally applied to various PLMs or NLP tasks, without using any retrieved or generated images, namely VAWI. Specifically, we first identify the visually-hungry words (VH-words) from input text via a token selector, where three different methods have been proposed, including syntax-, attention- and learning-based strategies. Then, we adopt a fixed CLIP text encoder to generate the visually-augmented representations of these VH-words. As it has been pre-trained by vision-language alignment task on the large-scale corpus, it is capable of injecting visual semantics into the aligned text representations. Finally, the visually-augmented features will be fused and transformed into the pre-designed visual prompts based on VH-words, which can be inserted into PLMs to enrich the visual semantics in word representations. We conduct extensive experiments on ten NLP tasks, i.e., GLUE benchmark, CommonsenseQA, CommonGen, and SNLI-VE. Experimental results show that our approach can consistently improve the performance of BERT, RoBERTa, BART, and T5 at different scales, and outperform several competitive baselines significantly. Our codes and data are publicly available at~\url{https://github.com/RUCAIBox/VAWI}.
Abstract（参考訳）: 事前訓練された言語モデル(PLM)は、テキストのみによる自己教師付きトレーニングによって印象的なパフォーマンスを示しているが、視覚的意味論やコモンセンス(例えば、サイズ、形状、コモンプレースオブジェクトの色など)は欠如している。既存のソリューションは、視覚的知識増強(時間を要する検索や生成)のために明示的なイメージに依存することが多く、特定の入力やタスクに実際に必要かどうかを考慮せずに、入力テキスト全体の拡張も行う。これらの課題に対処するために,検索画像や生成画像,すなわちVAWIを使わずに,様々なPLMやNLPタスクに適用可能な,視覚的な微調整手法を提案する。具体的には,まずトークンセレクタを用いて入力テキストから視覚的なhungry単語(vh-words)を識別し,構文・注意・学習に基づく3つの方法が提案されている。次に、固定されたCLIPテキストエンコーダを用いて、これらのVHワードの視覚的に拡張された表現を生成する。大規模コーパス上の視覚言語アライメントタスクによって事前訓練されているため、アライメントされたテキスト表現に視覚意味論を注入することができる。最後に、視覚的に拡張された機能は、VHワードに基づいて事前に設計された視覚的プロンプトに融合され、変換される。我々は,10個のNLPタスク,すなわちGLUEベンチマーク,CommonsenseQA,CommonGen,SNLI-VEについて広範な実験を行った。実験結果から,BERT,RoBERTa,BART,T5を異なるスケールで一貫した性能向上が達成され,競争力に優れる可能性が示唆された。私たちのコードとデータは、~\url{https://github.com/RUCAIBox/VAWI}で公開されています。

関連論文リスト

Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文参考訳（メタデータ） (2025-02-17T04:38:12Z)
Improving Visual Commonsense in Language Models via Multiple Image Generation [41.565399860320966]
既存の大規模言語モデル(LLM)は、主にテキストデータのみを使用して訓練されている。視覚言語モデルは視覚的に指向するタスクに優れており、基本的なコモンセンス推論のような視覚的でないタスクでは失敗することが多い。この分散は、基本的なテキストベースの言語推論と堅牢な視覚的理解の統合という、重要な課題を浮き彫りにする。
論文参考訳（メタデータ） (2024-06-19T15:17:10Z)
Tackling VQA with Pretrained Foundation Models without Further Training [0.0]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて最先端の結果を得た。これらのLCMの能力により、研究者は視覚的質問回答(VQA)の使用方法を模索している。本稿では、VQA問題を解決するために、事前訓練されたLLMと他の基礎モデルを組み合わせる方法を検討する。
論文参考訳（メタデータ） (2023-09-27T08:35:24Z)
Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-21T13:06:02Z)
UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-07-03T09:03:12Z)
Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文参考訳（メタデータ） (2023-06-02T19:19:43Z)
Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining on Visual Language Understanding [13.300199242824934]
視覚的・言語的な事前学習が、暗黙的な視覚的推論を含むテキストのみのタスクのパフォーマンスを向上させるかどうかを検討する。本稿では,テキストエンコーダモデルの視覚的推論能力を探索するための視覚言語理解タスクを提案する。また,テキストのみのタスクにCLIPなどのモデルを適用するための新しいゼロショット知識探索手法であるStroop Probingも提案する。
論文参考訳（メタデータ） (2023-03-21T17:30:40Z)
Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。 LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文参考訳（メタデータ） (2023-02-02T06:38:44Z)
I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision [32.49636188029509]
4つのタスクのテキストトレーニングデータのみを用いてモデルを作成する。これらのモデルは、画像上で訓練されたモデルに近いパフォーマンスを示す。画像データと人為的な言語データを用いない,多種多様なスタイリスティックな画像キャプションモデルについて紹介する。
論文参考訳（メタデータ） (2022-11-17T18:52:19Z)
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文参考訳（メタデータ） (2022-05-24T00:52:40Z)
Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文参考訳（メタデータ） (2021-12-10T14:59:06Z)
Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文参考訳（メタデータ） (2021-09-02T17:57:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。