論文の概要: Zero-shot Visual Question Answering with Language Model Feedback
- arxiv url: http://arxiv.org/abs/2305.17006v1
- Date: Fri, 26 May 2023 15:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 14:07:09.012877
- Title: Zero-shot Visual Question Answering with Language Model Feedback
- Title(参考訳): 言語モデルフィードバックによるゼロショット視覚質問応答
- Authors: Yifan Du, Junyi Li, Tianyi Tang, Wayne Xin Zhao, Ji-Rong Wen
- Abstract要約: 知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
- 参考スコア(独自算出の注目度): 83.65140324876536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel language model guided captioning approach,
LAMOC, for knowledge-based visual question answering (VQA). Our approach
employs the generated captions by a captioning model as the context of an
answer prediction model, which is a Pre-trained Language model (PLM). As the
major contribution, we leverage the guidance and feedback of the prediction
model to improve the capability of the captioning model. In this way, the
captioning model can become aware of the task goal and information need from
the PLM. To develop our approach, we design two specific training stages, where
the first stage adapts the captioning model to the prediction model (selecting
more suitable caption propositions for training) and the second stage tunes the
captioning model according to the task goal (learning from feedback of the
PLM). Extensive experiments demonstrate the effectiveness of the proposed
approach on the knowledge-based VQA task. Specifically, on the challenging
A-OKVQA dataset, LAMOC outperforms several competitive zero-shot methods and
even achieves comparable results to a fine-tuned VLP model. Our code is
publicly available at https://github.com/RUCAIBox/LAMOC.
- Abstract(参考訳): 本稿では,知識に基づく視覚的質問応答(VQA)のための新しい言語モデルであるLAMOCを提案する。
本手法は,事前学習型言語モデル (plm) である応答予測モデルの文脈としてキャプションモデルによって生成されたキャプションを用いる。
主な貢献として,予測モデルの指導とフィードバックを活用し,キャプションモデルの能力を向上させる。
このようにして、キャプションモデルは、PLMから必要なタスク目標と情報を認識することができる。
本手法を開発するために,第1段階は予測モデルにキャプションモデルを適応させ(トレーニングに適したキャプション命題を選択する),第2段階はタスク目標(PLMのフィードバックから学ぶ)に応じてキャプションモデルを調整する,2つの特定のトレーニング段階を設計する。
知識に基づくVQA課題における提案手法の有効性を実証した。
特に、挑戦的なA-OKVQAデータセットでは、LAMOCはいくつかの競合するゼロショット法より優れており、微調整されたVLPモデルと同等の結果が得られる。
私たちのコードはhttps://github.com/RUCAIBox/LAMOCで公開されています。
関連論文リスト
- Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - How to Adapt Pre-trained Vision-and-Language Models to a Text-only
Input? [0.13706331473063876]
我々は、すでに言語理解能力にいくつかの結果がある、事前訓練されたマルチモーダル・ビジョン・アンド・ランゲージ(VL)モデルに焦点を当てる。
これらのモデルの言語的スキルを評価する上で未解決の問題は、アウト・オブ・ディストリビューションの不確実性なしにテキストのみの入力に適応する方法が確立されていないことである。
GLUEとVisual Property Norms(VPN)の評価は、VLモデルをゼロショットのテキストのみのタスクに適応させるのに対して、モデルは非ゼロショットのタスクに適応する方法に敏感でないことを示す。
論文 参考訳(メタデータ) (2022-09-19T13:00:12Z) - Enhancing Pre-trained Models with Text Structure Knowledge for Question
Generation [2.526624977753083]
テキスト構造を応答位置と構文依存としてモデル化し,これらの制約に対処するために応答局所性モデリングと構文マスクアテンションを提案する。
SQuADデータセットの実験により、提案した2つのモジュールは、トレーニング済みの強力なモデルであるProphetNetよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2022-09-09T08:33:47Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - CaMEL: Mean Teacher Learning for Image Captioning [47.9708610052655]
画像キャプションのためのトランスフォーマーベースの新しいアーキテクチャであるCaMELを提案する。
提案手法は,訓練期間中に相互に学習する2つの相互接続型言語モデルの相互作用を利用する。
実験により,COCOデータセットと異なる視覚的特徴抽出器との併用により,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-02-21T19:04:46Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。