論文の概要: Z-LaVI: Zero-Shot Language Solver Fueled by Visual Imagination
- arxiv url: http://arxiv.org/abs/2210.12261v1
- Date: Fri, 21 Oct 2022 21:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:46:00.337831
- Title: Z-LaVI: Zero-Shot Language Solver Fueled by Visual Imagination
- Title(参考訳): Z-LaVI:ビジュアルイマジネーションによるゼロショット言語解法
- Authors: Yue Yang, Wenlin Yao, Hongming Zhang, Xiaoyang Wang, Dong Yu, Jianshu
Chen
- Abstract要約: 視覚的想像力を持つ言語モデルを実現するための新しいアプローチであるZ-LaVIを開発した。
i) 既存の画像の検索によるリコールと, (ii) テキスト・ツー・イメージ生成による既存の画像の合成である。
言語入力と想像力を併用して、事前訓練された視覚言語モデルは、最終的に元の言語タスクに対するゼロショットのソリューションを構成する。
- 参考スコア(独自算出の注目度): 57.49336064527538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pretrained language models have made significant advances in
solving downstream language understanding tasks. However, they generally suffer
from reporting bias, the phenomenon describing the lack of explicit commonsense
knowledge in written text, e.g., ''an orange is orange''. To overcome this
limitation, we develop a novel approach, Z-LaVI, to endow language models with
visual imagination capabilities. Specifically, we leverage two complementary
types of ''imaginations'': (i) recalling existing images through retrieval and
(ii) synthesizing nonexistent images via text-to-image generation. Jointly
exploiting the language inputs and the imagination, a pretrained
vision-language model (e.g., CLIP) eventually composes a zero-shot solution to
the original language tasks. Notably, fueling language models with imagination
can effectively leverage visual knowledge to solve plain language tasks. In
consequence, Z-LaVI consistently improves the zero-shot performance of existing
language models across a diverse set of language tasks.
- Abstract(参考訳): 大規模事前訓練型言語モデルは、下流言語理解タスクの解決に大きな進歩をもたらした。
しかし、一般的には「オレンジはオレンジ」など、文章中の明示的な常識知識の欠如を記述した現象である、バイアスの報告に苦しむ。
この制限を克服するため、視覚的想像力を持つ言語モデルを実現する新しいアプローチZ-LaVIを開発した。
具体的には、2つの補完的な「想像」を活用する。
(i)既存の画像の検索・検索によるリコール
(ii)テキスト対画像生成による非存在画像の合成
言語入力と想像力を併用して、事前訓練された視覚言語モデル(例えばCLIP)は、最終的に元の言語タスクに対するゼロショットソリューションを構成する。
特に、言語モデルに想像力を加えることで、視覚的な知識を効果的に活用して、平易な言語タスクを解決できる。
その結果、Z-LaVIは様々な言語タスクで既存の言語モデルのゼロショット性能を一貫して改善する。
関連論文リスト
- Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling [47.7950860342515]
LexiContrastive Grounding (LCG)は、視覚的監督を利用してテキスト表現を改善する言語学習手法である。
LCGは学習効率において標準言語のみのモデルより優れている。
CLIP、GIT、Flamingo、Vokenizationなど、視覚と言語による学習手順を改善する。
論文 参考訳(メタデータ) (2024-03-21T16:52:01Z) - Visually Grounded Language Learning: a review of language games,
datasets, tasks, and models [60.2604624857992]
多くのVision+Language (V+L)タスクは、視覚的モダリティでシンボルをグラウンドできるモデルを作成することを目的として定義されている。
本稿では,V+L分野において提案されるいくつかの課題とモデルについて,系統的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-12-05T02:17:29Z) - VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。
視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。
VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文 参考訳(メタデータ) (2023-10-15T07:58:52Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。