論文の概要: Generate then Select: Open-ended Visual Question Answering Guided by
World Knowledge
- arxiv url: http://arxiv.org/abs/2305.18842v1
- Date: Tue, 30 May 2023 08:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:31:49.783602
- Title: Generate then Select: Open-ended Visual Question Answering Guided by
World Knowledge
- Title(参考訳): generation then select: world knowledgeによるオープンエンドのビジュアル質問応答
- Authors: Xingyu Fu and Sheng Zhang and Gukyeong Kwon and Pramuditha Perera and
Henghui Zhu and Yuhao Zhang and Alexander Hanbo Li and William Yang Wang and
Zhiguo Wang and Vittorio Castelli and Patrick Ng and Dan Roth and Bing Xiang
- Abstract要約: Open-ended Visual Question Answering (VQA)タスクでは、視覚と自然言語の入力をAIモデルが共同で推論する必要がある。
GPT-3のような事前訓練された言語モデル(PLM)がこのタスクに適用され、強力な世界知識源であることが示されている。
我々は,世界的知識によって導かれるジェネレータ選択戦略をデプロイする新しいVQAパイプラインであるRASOを提案する。
- 参考スコア(独自算出の注目度): 155.81786738036578
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The open-ended Visual Question Answering (VQA) task requires AI models to
jointly reason over visual and natural language inputs using world knowledge.
Recently, pre-trained Language Models (PLM) such as GPT-3 have been applied to
the task and shown to be powerful world knowledge sources. However, these
methods suffer from low knowledge coverage caused by PLM bias -- the tendency
to generate certain tokens over other tokens regardless of prompt changes, and
high dependency on the PLM quality -- only models using GPT-3 can achieve the
best result.
To address the aforementioned challenges, we propose RASO: a new VQA pipeline
that deploys a generate-then-select strategy guided by world knowledge for the
first time. Rather than following the de facto standard to train a multi-modal
model that directly generates the VQA answer, RASO first adopts PLM to generate
all the possible answers, and then trains a lightweight answer selection model
for the correct answer. As proved in our analysis, RASO expands the knowledge
coverage from in-domain training data by a large margin. We provide extensive
experimentation and show the effectiveness of our pipeline by advancing the
state-of-the-art by 4.1% on OK-VQA, without additional computation cost. Code
and models are released at http://cogcomp.org/page/publication_view/1010
- Abstract(参考訳): vqa(open-ended visual question answering)タスクは、世界知識を用いた視覚および自然言語入力を推論するaiモデルを必要とする。
近年, GPT-3 のような事前学習型言語モデル (PLM) が課題に適用され, 強力な世界知識源であることが示されている。
しかしながら、これらの手法は、PLMバイアスによって引き起こされる知識の少ないカバレッジ、即時的な変更に関わらずトークンを他のトークン上に生成する傾向、およびPLMの品質への高い依存に悩まされる。
上記の課題に対処するため、我々は、世界知識によってガイドされたジェネレータ選択戦略を初めて展開する新しいVQAパイプラインであるRASOを提案する。
vqaの回答を直接生成するマルチモーダルモデルをトレーニングするデファクト標準に従うのではなく、rasoはまずplmを採用して可能なすべての回答を生成し、その後、正しい回答のために軽量な回答選択モデルをトレーニングする。
我々の分析で証明されたように、RASOはドメイン内トレーニングデータからの知識カバレッジを大きなマージンで拡大する。
我々は,OK-VQAを4.1%向上させ,計算コストを伴わずにパイプラインの有効性を示す。
コードとモデルはhttp://cogcomp.org/page/publication_view/1010でリリース
関連論文リスト
- Genetic Auto-prompt Learning for Pre-trained Code Intelligence Language Models [54.58108387797138]
コードインテリジェンスタスクにおける即時学習の有効性について検討する。
既存の自動プロンプト設計手法は、コードインテリジェンスタスクに限られている。
本稿では、精巧な遺伝的アルゴリズムを用いてプロンプトを自動設計する遺伝的オートプロンプト(GenAP)を提案する。
論文 参考訳(メタデータ) (2024-03-20T13:37:00Z) - ReasoningLM: Enabling Structural Subgraph Reasoning in Pre-trained
Language Models for Question Answering over Knowledge Graph [142.42275983201978]
本稿では,構造化推論を行うためのGNNを模倣するサブグラフ認識型自己認識機構を提案する。
また、モデルパラメータを2万のサブグラフで合成した質問に適応するための適応チューニング戦略も採用する。
実験により、ReasoningLMは、更新されたパラメータが少なく、トレーニングデータが少ない場合でも、最先端のモデルを大きなマージンで上回っていることが示された。
論文 参考訳(メタデータ) (2023-12-30T07:18:54Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - A Simple Baseline for Knowledge-Based Visual Question Answering [78.00758742784532]
本稿では,知識に基づく視覚質問応答(KB-VQA)の問題について述べる。
本論文の主な貢献は,よりシンプルで容易に再現可能なパイプラインを提案することである。
近年のアプローチとは対照的に,本手法はトレーニングフリーであり,外部データベースやAPIへのアクセスを必要とせず,OK-VQAおよびA-OK-VQAデータセット上で最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-10-20T15:08:17Z) - KEPR: Knowledge Enhancement and Plausibility Ranking for Generative
Commonsense Question Answering [11.537283115693432]
本稿では,ジェネレート・Then-Rankパイプラインアーキテクチャに基づく知識向上と可視性ランキング手法を提案する。
具体的には、キーワードのWiktionary Commonsense知識の観点から質問を拡張し、正規化パターンで修正する。
ELECTRAに基づく回答ランキングモデルを構築し、学習中にロジスティック回帰を行う。
論文 参考訳(メタデータ) (2023-05-15T04:58:37Z) - Prophet: Prompting Large Language Models with Complementary Answer
Heuristics for Knowledge-based Visual Question Answering [30.858737348472626]
知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。
近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。
本稿では,知識に基づくVQAの解答をLCMに促すための,概念的にシンプルで柔軟な,汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:15Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - TSGP: Two-Stage Generative Prompting for Unsupervised Commonsense
Question Answering [4.965306353273393]
教師なしのコモンセンス質問応答には、ラベル付きタスクデータに頼らずに効果的なコモンセンス知識をマイニングする必要がある。
2段階のプロンプトに基づく教師なしコモンセンス質問応答フレームワーク(TSGP)を提案する。
CommonsenseQA、OpenBookQA、SocialIQAの3つの異なる共通センス推論タスクに関する実験結果と分析により、TSGPは教師なし設定における言語モデルの推論能力を大幅に改善することを示した。
論文 参考訳(メタデータ) (2022-11-24T10:19:24Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。