論文の概要: Tackling VQA with Pretrained Foundation Models without Further Training
- arxiv url: http://arxiv.org/abs/2309.15487v1
- Date: Wed, 27 Sep 2023 08:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 14:46:00.231764
- Title: Tackling VQA with Pretrained Foundation Models without Further Training
- Title(参考訳): 付加訓練を伴わない事前学習基礎モデルによるVQA対応
- Authors: Alvin De Jun Tan, Bingquan Shen
- Abstract要約: 大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて最先端の結果を得た。
これらのLCMの能力により、研究者は視覚的質問回答(VQA)の使用方法を模索している。
本稿では、VQA問題を解決するために、事前訓練されたLLMと他の基礎モデルを組み合わせる方法を検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved state-of-the-art results in many
natural language processing tasks. They have also demonstrated ability to adapt
well to different tasks through zero-shot or few-shot settings. With the
capability of these LLMs, researchers have looked into how to adopt them for
use with Visual Question Answering (VQA). Many methods require further training
to align the image and text embeddings. However, these methods are
computationally expensive and requires large scale image-text dataset for
training. In this paper, we explore a method of combining pretrained LLMs and
other foundation models without further training to solve the VQA problem. The
general idea is to use natural language to represent the images such that the
LLM can understand the images. We explore different decoding strategies for
generating textual representation of the image and evaluate their performance
on the VQAv2 dataset.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて最先端の結果を得た。
彼らはまた、ゼロショットまたは少数ショットの設定で異なるタスクにうまく適応する能力も示している。
これらのLLMの能力により、研究者は視覚的質問回答(VQA)で採用する方法を検討した。
多くの方法は、画像とテキストの埋め込みを調整するためにさらなるトレーニングを必要とする。
しかし、これらの手法は計算コストが高く、トレーニングには大規模な画像テキストデータセットを必要とする。
本稿では、VQA問題を解決するために、事前訓練されたLLMと他の基礎モデルを組み合わせる方法を検討する。
一般的な考え方は、自然言語を使って画像を表現し、llmが画像を理解することである。
画像のテキスト表現を生成するための異なるデコード戦略を検討し,vqav2データセット上での性能評価を行う。
関連論文リスト
- Large Vision-Language Models for Remote Sensing Visual Question Answering [0.0]
リモートセンシング視覚質問回答(RSVQA)は、複雑な衛星画像の自然言語質問への答えを解釈する難しいタスクである。
伝統的なアプローチは、しばしば別々の視覚特徴抽出器と言語処理モデルに依存しており、計算集約的で、オープンエンドの質問を扱う能力に制限がある。
RSVQAプロセスの合理化にLVLM(Large Vision-Language Model)を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-16T18:32:38Z) - Improving Visual Commonsense in Language Models via Multiple Image Generation [41.565399860320966]
既存の大規模言語モデル(LLM)は、主にテキストデータのみを使用して訓練されている。
視覚言語モデルは視覚的に指向するタスクに優れており、基本的なコモンセンス推論のような視覚的でないタスクでは失敗することが多い。
この分散は、基本的なテキストベースの言語推論と堅牢な視覚的理解の統合という、重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-06-19T15:17:10Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Filling the Image Information Gap for VQA: Prompting Large Language
Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。
画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。
我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-20T08:23:39Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。