論文の概要: mForms : Multimodal Form-Filling with Question Answering
- arxiv url: http://arxiv.org/abs/2011.12340v4
- Date: Sat, 23 Mar 2024 17:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 06:12:57.515556
- Title: mForms : Multimodal Form-Filling with Question Answering
- Title(参考訳): mForms : 質問応答によるマルチモーダルフォームフィリング
- Authors: Larry Heck, Simon Heck, Anirudh Sundar,
- Abstract要約: 本稿では,マルチモーダルな自然言語質問回答 (QA) としてタスクを再構築し,フォームフィリングへの新たなアプローチを提案する。
GUI形式の要素(テキストフィールド、ボタン、アイコンなど)を自然言語の質問に翻訳し、これらの質問が要素のマルチモーダルなセマンティクスをキャプチャする。
その結果, この手法は, スパーストレーニング条件に対する堅牢な精度を維持するだけでなく, トレーニングデータの約10分の1をATIS上で0.97の最先端F1を達成することができた。
- 参考スコア(独自算出の注目度): 1.7614751781649955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a new approach to form-filling by reformulating the task as multimodal natural language Question Answering (QA). The reformulation is achieved by first translating the elements on the GUI form (text fields, buttons, icons, etc.) to natural language questions, where these questions capture the element's multimodal semantics. After a match is determined between the form element (Question) and the user utterance (Answer), the form element is filled through a pre-trained extractive QA system. By leveraging pre-trained QA models and not requiring form-specific training, this approach to form-filling is zero-shot. The paper also presents an approach to further refine the form-filling by using multi-task training to incorporate a potentially large number of successive tasks. Finally, the paper introduces a multimodal natural language form-filling dataset Multimodal Forms (mForms), as well as a multimodal extension of the popular ATIS dataset to support future research and experimentation. Results show the new approach not only maintains robust accuracy for sparse training conditions but achieves state-of-the-art F1 of 0.97 on ATIS with approximately 1/10th of the training data.
- Abstract(参考訳): 本稿では,マルチモーダルな自然言語質問回答 (QA) としてタスクを再構築し,フォームフィリングへの新たなアプローチを提案する。
GUI形式の要素(テキストフィールド、ボタン、アイコンなど)を自然言語の質問に翻訳し、これらの質問が要素のマルチモーダルなセマンティクスをキャプチャする。
フォーム要素(クエスト)とユーザ発話(アンサー)との一致が決定されると、予め訓練された抽出QAシステムを介してフォーム要素を充填する。
事前訓練されたQAモデルを活用し、フォーム固有のトレーニングを必要としないことで、フォームフィリングへのアプローチはゼロショットである。
また, マルチタスク学習を用いて, 多くのタスクを組み込むことにより, フォームフィリングをさらに洗練する手法を提案する。
最後に,Multimodal natural language form-filling dataset Multimodal Forms (mForms)を紹介するとともに,今後の研究と実験を支援するために,一般的なATISデータセットのマルチモーダル拡張を提案する。
その結果, この手法は, スパーストレーニング条件に対する堅牢な精度を維持するだけでなく, トレーニングデータの約10分の1をATIS上で0.97の最先端F1を達成することができた。
関連論文リスト
- XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser [35.69888780388425]
本研究では, 単純だが効果的な textbfMultimodal と textbfMultilingual semi-structured textbfFORM textbfXForm フレームワークを提案する。
textbfXFormは、包括的な事前訓練された言語モデルに固定されており、革新的にエンティティ認識とリレーショナルREである。
本フレームワークは,マルチ言語およびゼロショットの両文脈において,タスク間の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-05-27T16:37:17Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - Multimodal Inverse Cloze Task for Knowledge-based Visual Question
Answering [4.114444605090133]
名前付きエンティティに関する知識に基づく視覚質問応答のための事前学習手法であるMultimodal Inverse Cloze Taskを提案する。
KVQAEは最近導入されたタスクで、知識ベースを使用して視覚的コンテキストに接地された名前付きエンティティに関する質問に答える。
提案手法は異なるニューラルネットワークアーキテクチャに適用可能であり, 9%の相対MRR, 15%の相対F1ゲインが検索および読解に有効である。
論文 参考訳(メタデータ) (2023-01-11T09:16:34Z) - MoCA: Incorporating Multi-stage Domain Pretraining and Cross-guided
Multimodal Attention for Textbook Question Answering [7.367945534481411]
テキスト質問応答タスクに対して,多段階事前学習とマルチモーダルクロスアテンションを取り入れたMoCAという新しいモデルを提案する。
実験結果から,本モデルの精度が2.21%, 2.43%向上し, 検証精度が2.21%, テストスプリットが2.43%向上した。
論文 参考訳(メタデータ) (2021-12-06T07:58:53Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。