論文の概要: VisualMRC: Machine Reading Comprehension on Document Images
- arxiv url: http://arxiv.org/abs/2101.11272v1
- Date: Wed, 27 Jan 2021 09:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 19:48:55.905406
- Title: VisualMRC: Machine Reading Comprehension on Document Images
- Title(参考訳): VisualMRC: ドキュメントイメージの機械読解
- Authors: Ryota Tanaka, Kyosuke Nishida, Sen Yoshida
- Abstract要約: 質問と文書画像が与えられたとき、機械は自然言語で質問に答えるために画像中のテキストを読み、理解する。
VisualMRCは、自然言語の理解と生成能力の開発に重点を置いている。
これには3万以上の質問と、Webページの複数のドメインから得られた1万以上のドキュメントイメージの抽象的な回答が含まれている。
- 参考スコア(独自算出の注目度): 4.057968826847943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies on machine reading comprehension have focused on text-level
understanding but have not yet reached the level of human understanding of the
visual layout and content of real-world documents. In this study, we introduce
a new visual machine reading comprehension dataset, named VisualMRC, wherein
given a question and a document image, a machine reads and comprehends texts in
the image to answer the question in natural language. Compared with existing
visual question answering (VQA) datasets that contain texts in images,
VisualMRC focuses more on developing natural language understanding and
generation abilities. It contains 30,000+ pairs of a question and an
abstractive answer for 10,000+ document images sourced from multiple domains of
webpages. We also introduce a new model that extends existing
sequence-to-sequence models, pre-trained with large-scale text corpora, to take
into account the visual layout and content of documents. Experiments with
VisualMRC show that this model outperformed the base sequence-to-sequence
models and a state-of-the-art VQA model. However, its performance is still
below that of humans on most automatic evaluation metrics. The dataset will
facilitate research aimed at connecting vision and language understanding.
- Abstract(参考訳): 近年の機械読解の研究はテキストレベルの理解に焦点が当てられているが、実世界の文書の視覚的レイアウトや内容の理解レベルには達していない。
本研究では,質問文と文書イメージを与えられたマシンが画像中のテキストを読み,理解して自然言語で回答する,VisualMRCという新しい視覚機械読解データセットを提案する。
画像中のテキストを含む既存の視覚的質問応答(VQA)データセットと比較して、VisualMRCは自然言語理解と生成能力の開発に重点を置いています。
これには3万以上の質問と、Webページの複数のドメインから得られた1万以上のドキュメントイメージの抽象的な回答が含まれている。
また,既存のシーケンシャル・ツー・シーケンスモデルを大規模テキストコーパスで事前学習し,文書の視覚的レイアウトと内容を考慮した新しいモデルを提案する。
VisualMRCの実験では、このモデルがベースシーケンス・ツー・シーケンスモデルと最先端のVQAモデルを上回る性能を示した。
しかしながら、ほとんどの自動評価指標では、その性能は人間のそれ以下である。
データセットは、視覚と言語理解をつなぐ研究を促進する。
関連論文リスト
- Enhancing Vision Models for Text-Heavy Content Understanding and Interaction [0.0]
画像エンコーディングのためのCLIPとMassive Text Embedding Benchmarkのモデルを統合したビジュアルチャットアプリケーションを構築した。
プロジェクトの目的は、複雑な視覚的テキストデータ相互接続データの理解において、先進視覚モデルの能力を高め、強化することである。
論文 参考訳(メタデータ) (2024-05-31T15:17:47Z) - ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images [1.2529442734851663]
ベトナムでは,画像に現れるテキストを理解する能力に特化して,最初の大規模データセットを導入する。
我々は、OCRテキスト中のトークンを処理し、回答を定式化するために選択する順序の重要性を明らかにする。
論文 参考訳(メタデータ) (2024-04-16T15:28:30Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Learning the Visualness of Text Using Large Vision-Language Models [42.75864384249245]
視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。
テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。
我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
論文 参考訳(メタデータ) (2023-05-11T17:45:16Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - Look, Read and Ask: Learning to Ask Questions by Reading Text in Images [3.3972119795940525]
テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。
テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
論文 参考訳(メタデータ) (2022-11-23T13:52:46Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。