論文の概要: Generating Rationales in Visual Question Answering
- arxiv url: http://arxiv.org/abs/2004.02032v1
- Date: Sat, 4 Apr 2020 22:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 22:35:10.657931
- Title: Generating Rationales in Visual Question Answering
- Title(参考訳): 視覚的質問応答における合理性の生成
- Authors: Hammad A. Ayyubi, Md. Mehrab Tanjim, Julian J. McAuley, and Garrison
W. Cottrell
- Abstract要約: 視覚質問応答(VQA)のための新しいタスク分岐生成法を提案する。
VCR(Visual Commonsense Rea-soning)タスクのデータを、視覚的な質問や回答とともに、基礎的真実を含むものとして使用しています。
我々は、VQAにおける解答の予測と合理性の生成という2つのタスクで、GPT-2でVLBERTをエンドツーエンドで訓練する。
- 参考スコア(独自算出の注目度): 28.45552957339557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in Visual QuestionAnswering (VQA), it remains a
challenge todetermine how much success can be attributedto sound reasoning and
comprehension ability.We seek to investigate this question by propos-ing a new
task ofrationale generation. Es-sentially, we task a VQA model with generat-ing
rationales for the answers it predicts. Weuse data from the Visual Commonsense
Rea-soning (VCR) task, as it contains ground-truthrationales along with visual
questions and an-swers. We first investigate commonsense un-derstanding in one
of the leading VCR mod-els, ViLBERT, by generating rationales frompretrained
weights using a state-of-the-art lan-guage model, GPT-2. Next, we seek to
jointlytrain ViLBERT with GPT-2 in an end-to-endfashion with the dual task of
predicting the an-swer in VQA and generating rationales. Weshow that this kind
of training injects com-monsense understanding in the VQA modelthrough
quantitative and qualitative evaluationmetrics
- Abstract(参考訳): 近年のvqa(visual questionanswering)の進歩にもかかわらず、音の推論と理解能力によって、どの程度の成功がもたらされるかを決定することは課題であり、我々はこの課題を新しい合理化のタスクを提案して調査する。
要するに私たちは,vqaモデルに対して,それが予測する回答に対する帰属的根拠を持つタスクを実行します。
Visual Commonsense Rea-soning (VCR)タスクからのデータを利用する。
我々はまず,先行するVCRモジュールの1つであるVLBERTにおいて,最先端のランゲージモデルであるGPT-2を用いて,予め制限された重みから有理性を生成することにより,不利なコモンセンスについて検討した。
次に、VQAにおける解答の予測と合理性の生成という2つのタスクと、エンドツーエンドでVLBERTとGPT-2を併用する。
量的および質的評価尺度に基づくVQAモデルにおけるこのような訓練が総合的な理解を誘導することを示す
関連論文リスト
- Retrieval-Augmented Natural Language Reasoning for Explainable Visual Question Answering [2.98667511228225]
ReReは、事前訓練されたクリップビジョンエンコーダと事前訓練されたGPT-2言語モデルをデコーダとして使用するエンコーダ/デコーダアーキテクチャモデルである。
ReReは、VQA精度と説明スコアにおいて従来の手法よりも優れており、より説得力があり信頼性の高いNLEの改善を示している。
論文 参考訳(メタデータ) (2024-08-30T04:39:43Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - Learning Answer Generation using Supervision from Automatic Question
Answering Evaluators [98.9267570170737]
我々は、自動QA評価モデル(GAVA)の監督を用いたGenQAのための新しいトレーニングパラダイムを提案する。
提案手法を2つの学術的, 1つの産業的データセット上で評価し, 過去の技術状況に対して, 回答精度を大幅に向上させた。
論文 参考訳(メタデータ) (2023-05-24T16:57:04Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Towards a Unified Model for Generating Answers and Explanations in
Visual Question Answering [11.754328280233628]
我々は、QAモデルとは無関係なトレーニング説明モデルにより、説明の根拠が減り、性能が制限されると主張している。
本稿では,統一モデルに対するマルチタスク学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-25T19:29:19Z) - Knowledge Transfer from Answer Ranking to Answer Generation [97.38378660163414]
我々は、訓練されたAS2モデルから知識を伝達することで、GenQAモデルをトレーニングすることを提案する。
また,AS2モデル予測スコアを損失重み付けおよびスコア条件付き入出力整形に用いることを提案する。
論文 参考訳(メタデータ) (2022-10-23T21:51:27Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。