論文の概要: Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot
Image Captioning
- arxiv url: http://arxiv.org/abs/2302.04858v1
- Date: Thu, 9 Feb 2023 18:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 14:41:43.167464
- Title: Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot
Image Captioning
- Title(参考訳): Re-ViLM:ZeroとFew-Shot画像キャプションのための検索拡張ビジュアル言語モデル
- Authors: Zhuolin Yang, Wei Ping, Zihan Liu, Vijay Korthikanti, Weili Nie, De-An
Huang, Linxi Fan, Zhiding Yu, Shiyi Lan, Bo Li, Ming-Yu Liu, Yuke Zhu,
Mohammad Shoeybi, Bryan Catanzaro, Chaowei Xiao, Anima Anandkumar
- Abstract要約: 本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。
外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。
Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
- 参考スコア(独自算出の注目度): 112.28706658585257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Augmenting pretrained language models (LMs) with a vision encoder (e.g.,
Flamingo) has obtained state-of-the-art results in image-to-text generation.
However, these models store all the knowledge within their parameters, thus
often requiring enormous model parameters to model the abundant visual concepts
and very rich textual descriptions. Additionally, they are inefficient in
incorporating new data, requiring a computational-expensive fine-tuning
process. In this work, we introduce a Retrieval-augmented Visual Language
Model, Re-ViLM, built upon the Flamingo, that supports retrieving the relevant
knowledge from the external database for zero and in-context few-shot
image-to-text generations. By storing certain knowledge explicitly in the
external database, our approach reduces the number of model parameters and can
easily accommodate new data during evaluation by simply updating the database.
We also construct an interleaved image and text data that facilitates
in-context few-shot learning capabilities. We demonstrate that Re-ViLM
significantly boosts performance for image-to-text generation tasks, especially
for zero-shot and few-shot generation in out-of-domain settings with 4 times
less parameters compared with baseline methods.
- Abstract(参考訳): 事前訓練された言語モデル(LM)を視覚エンコーダ(例えばFlamingo)で拡張することで、画像からテキスト生成の最先端結果が得られる。
しかしながら、これらのモデルは全ての知識をパラメータに格納するため、豊富な視覚概念と非常に豊富なテキスト記述をモデル化するために巨大なモデルパラメータを必要とすることが多い。
さらに、新しいデータを取り込むのに効率が悪く、計算効率のよい微調整プロセスが必要となる。
本稿では,フラミンゴ上に構築された検索型ビジュアル言語モデルであるre-vilmを導入することで,外部データベースから関連する知識をゼロおよびインコンテキストの少数ショット画像からテキストへの世代で検索することを支援する。
特定の知識を外部データベースに明示的に格納することで、モデルパラメータの数を減らし、データベースを単純に更新することで、評価中に容易に新しいデータに対応できる。
また,インターリーブされた画像とテキストデータを構築し,テキスト内数ショット学習機能を実現する。
本稿では,画像からテキストへの生成タスク,特に領域外設定におけるゼロショットおよび少数ショット生成において,ベースラインメソッドと比較して4倍のパラメータで,re-vilmが性能を大幅に向上させることを示す。
関連論文リスト
- Improving the Efficiency of Visually Augmented Language Models [5.948051066733892]
本稿では,LMを視覚的に拡張するために明示的な画像は必要ないことを示す。
代わりに、よく知られたCLIPマルチモーダルシステムから得られる視覚的なテキスト表現を使用する。
BLIND-VALMは、VALM for Visual Language Understanding (VLU)、Natural Language Understanding (NLU)、Language Modelingタスクと同等に動作することを示す。
論文 参考訳(メタデータ) (2024-09-17T13:02:19Z) - ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling [35.098725056881655]
大型視覚言語モデル(LVLM)は前例のない視覚推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素の幻覚などのエラーが発生する。
そこで我々は,LVLMの視覚的接地性を高めるために,微粒な報酬モデルを用いた新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension [24.335348817838216]
大言語モデル(LLM)に基づく画像キャプションは、トレーニングデータで明示的に観察されていないオブジェクトを記述する能力を持つ。
外部視覚名メモリ(EVCap)から取得したオブジェクト名でLLMを誘導する高効率な画像キャプション手法を提案する。
我々のモデルはCOCOデータセットでのみトレーニングされており、追加の微調整や再トレーニングを必要とせず、ドメイン外への適応が可能である。
論文 参考訳(メタデータ) (2023-11-27T14:51:37Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。