論文の概要: ISAAQ -- Mastering Textbook Questions with Pre-trained Transformers and
Bottom-Up and Top-Down Attention
- arxiv url: http://arxiv.org/abs/2010.00562v1
- Date: Thu, 1 Oct 2020 17:28:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 07:01:05.677732
- Title: ISAAQ -- Mastering Textbook Questions with Pre-trained Transformers and
Bottom-Up and Top-Down Attention
- Title(参考訳): ISAAQ -- 事前学習したトランスフォーマーとボトムアップとトップダウン注意による教科書質問のマスター
- Authors: Jose Manuel Gomez-Perez, Raul Ortega
- Abstract要約: 本稿では,トランスフォーマー言語モデルとボトムアップとトップダウンの取り組みの可能性に着目し,この課題がもたらす言語と視覚的理解の課題に取り組む。
言語-視覚変換をゼロからトレーニングするのではなく、トレーニング済みのトランスフォーマー、微調整、アンサンブルに頼っています。
我々のシステムISAAQは、すべてのTQA質問タイプで前例のない成功を報告しており、真/偽、テキストのみ、図表による複数の選択質問に対して81.36%、71.11%、55.12%のアキュラティがある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textbook Question Answering is a complex task in the intersection of Machine
Comprehension and Visual Question Answering that requires reasoning with
multimodal information from text and diagrams. For the first time, this paper
taps on the potential of transformer language models and bottom-up and top-down
attention to tackle the language and visual understanding challenges this task
entails. Rather than training a language-visual transformer from scratch we
rely on pre-trained transformers, fine-tuning and ensembling. We add bottom-up
and top-down attention to identify regions of interest corresponding to diagram
constituents and their relationships, improving the selection of relevant
visual information for each question and answer options. Our system ISAAQ
reports unprecedented success in all TQA question types, with accuracies of
81.36%, 71.11% and 55.12% on true/false, text-only and diagram multiple choice
questions. ISAAQ also demonstrates its broad applicability, obtaining
state-of-the-art results in other demanding datasets.
- Abstract(参考訳): Textbook Question Answeringは、Machine ComprehensionとVisual Question Answeringの交差点における複雑なタスクであり、テキストとダイアグラムからのマルチモーダル情報による推論を必要とする。
本稿では,トランスフォーマー言語モデルの可能性とボトムアップとトップダウンの注意を取り入れて,この課題がもたらす言語と視覚的理解の課題に取り組む。
言語-視覚変換をゼロからトレーニングするのではなく、トレーニング済みのトランスフォーマー、微調整、アンサンブルに頼っています。
ボトムアップとトップダウンの注意を付けて,ダイアグラムの構成とその関係に対応する関心領域を特定し,質問と回答の選択肢ごとに関連する視覚情報の選択を改善した。
我々のシステムisaaqは、全てのtqa質問タイプで前例のない成功を報告し、誤りは81.36%、71.11%、55.12%である。
ISAAQはまた、その広範な適用性を示し、他の要求のあるデータセットで最先端の結果を得る。
関連論文リスト
- Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models [36.56689822791777]
KBVQA (Knowledge-Based Visual Question Answering) は、外部知識と質問に答える画像を追加することで、この概念を前進させる。
本研究の主な貢献は、動的トリプル抽出法を用いて知識グラフから抽出した外部知識を組み込むことにより、質問を強化することである。
知識に富んだ我々のモデルは,3種類のKBVQAデータセット上での最先端技術よりも,Exact Match Scoreの平均4.75%向上を示す。
論文 参考訳(メタデータ) (2024-06-14T13:07:46Z) - TANQ: An open domain dataset of table answered questions [15.323690523538572]
TANQは、複数のソースにまたがる情報からテーブルを構築する必要がある、最初のオープンドメイン質問応答データセットである。
結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。
最も優れたベースラインであるGPT4は、全体的なF1スコア29.1に達し、人間のパフォーマンスを19.7ポイント遅れています。
論文 参考訳(メタデータ) (2024-05-13T14:07:20Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Weakly Supervised Grounding for VQA in Vision-Language Transformers [112.5344267669495]
本稿では,トランスにおける視覚的質問応答の文脈における弱教師付きグラウンドリングの問題に焦点をあてる。
このアプローチでは、視覚エンコーダ内の各視覚トークンをグループ化することでカプセルを活用する。
我々は、挑戦的なGQAとVQAグラウンドリングのためのVQA-HATデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-05T22:06:03Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Classification-Regression for Chart Comprehension [16.311371103939205]
チャート質問応答(CQA)は、チャート理解を評価するために用いられるタスクである。
分類と回帰を共同で学習する新しいモデルを提案する。
私たちのモデルのエッジは、特に語彙外回答の質問に重点を置いています。
論文 参考訳(メタデータ) (2021-11-29T18:46:06Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - FAT ALBERT: Finding Answers in Large Texts using Semantic Similarity
Attention Layer based on BERT [0.5772546394254112]
本研究では,最先端の変圧器ネットワークであるBERTをベースとしたモデルを構築した。
私たちは、テスト精度87.79%のリーダーボードで第1位にランクされています。
論文 参考訳(メタデータ) (2020-08-22T08:04:21Z) - Knowledgeable Dialogue Reading Comprehension on Key Turns [84.1784903043884]
MRC(Multi-choice Machine reading comprehension)は、ある項目と質問に対する候補オプションから正しい回答を選択するモデルである。
本研究は,複数回対話を行う対話型MRCに焦点を当てている。
それは2つの課題に悩まされ、答えの選択決定は、最近役に立つコモンセンスをサポートせずに行われ、マルチターンコンテキストは、かなりの無関係な情報を隠蔽する可能性がある。
論文 参考訳(メタデータ) (2020-04-29T07:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。