論文の概要: Effect of Vision-and-Language Extensions on Natural Language
Understanding in Vision-and-Language Models
- arxiv url: http://arxiv.org/abs/2104.08066v1
- Date: Fri, 16 Apr 2021 12:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:37:57.592822
- Title: Effect of Vision-and-Language Extensions on Natural Language
Understanding in Vision-and-Language Models
- Title(参考訳): 視覚・言語拡張が言語モデルにおける自然言語理解に及ぼす影響
- Authors: Taichi Iki, Akiko Aizawa
- Abstract要約: 本稿では,GLUEベンチマークを用いて視覚的拡張がV&Lモデルの言語能力に与える影響について検討する。
視覚的拡張は言語能力の低下を引き起こし、V&Lプリトレーニングは減少に対する構造的変更よりも大きな影響を及ぼすことがわかった。
- 参考スコア(独自算出の注目度): 24.5834345625595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extending language models with structural modifications and
vision-and-language (V&L) pretraining are successful ways of making V&L models
that can ground vision and language. Potential applications of these advanced
models include multi-modal machine reading comprehension models and multi-modal
dialogue models, which require language ability upon grounding. Although
language capability is crucial for such applications, the impact of extending
their visual capabilities on their language capabilities is not fully
understood. This paper investigates how visual extension affects the language
capability of V&L models using the GLUE benchmark. We found that visual
extension causes some decreases in language capability and that V&L pretraining
has a greater impact than structural modifications on the decreases. Our
results suggest the need for further study on pretraining that can maintain or,
if possible, improve a model's language capability.
- Abstract(参考訳): 構造的修正による言語モデルの拡張と視覚と言語(V&L)事前訓練は、視覚と言語を基盤とするV&Lモデルの作成に成功している。
これらの高度なモデルの潜在的な応用には、言語能力を必要とするマルチモーダル機械読解モデルとマルチモーダル対話モデルがある。
このようなアプリケーションでは、言語能力は不可欠であるが、視覚能力の拡張が言語能力に与える影響は、完全には理解されていない。
本稿では,GLUEベンチマークを用いて,視覚拡張がV&Lモデルの言語能力に与える影響について検討する。
その結果,視覚的拡張は言語能力の低下を招き,V&L事前学習は構造的変化よりも影響が大きいことがわかった。
この結果から,モデル言語能力の向上や維持が可能な事前学習のさらなる研究の必要性が示唆された。
関連論文リスト
- LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language [2.9914612342004503]
本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。
継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。
その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。
論文 参考訳(メタデータ) (2024-05-13T13:41:59Z) - Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling [47.7950860342515]
LexiContrastive Grounding (LCG)は、視覚的監督を利用してテキスト表現を改善する言語学習手法である。
LCGは学習効率において標準言語のみのモデルより優れている。
CLIP、GIT、Flamingo、Vokenizationなど、視覚と言語による学習手順を改善する。
論文 参考訳(メタデータ) (2024-03-21T16:52:01Z) - Language Grounded QFormer for Efficient Vision Language Understanding [25.432918254523344]
BLIP-2モデルで提案したクエリトランスフォーマー(QFormer)アプローチから着想を得た。
より効率的なQFormerベースの視覚言語アライメント法を提案する。
論文 参考訳(メタデータ) (2023-11-13T16:30:49Z) - VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。
視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。
VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文 参考訳(メタデータ) (2023-10-15T07:58:52Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文 参考訳(メタデータ) (2023-06-02T07:21:03Z) - Images in Language Space: Exploring the Suitability of Large Language
Models for Vision & Language Tasks [17.97052348690598]
大規模言語モデルは、ゼロショットまたは少数ショット学習パラダイムを使用して、様々な言語タスクで堅牢なパフォーマンスを示す。
入力としてイメージを付加的に処理できるマルチモーダルモデルは、言語のみのモデルでサイズと一般性に追いつかない。
異なる言語モデルを用いて言語モデルに視覚情報をアクセスできるようにする。
論文 参考訳(メタデータ) (2023-05-23T07:50:36Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - PaLI: A Jointly-Scaled Multilingual Language-Image Model [110.10710554358455]
PaLI(Pathways Language and Image Model)は、このアプローチを言語と視覚の合同モデリングに拡張するモデルである。
我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
論文 参考訳(メタデータ) (2022-09-14T17:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。