論文の概要: Zero-Shot Visual Slot Filling as Question Answering
- arxiv url: http://arxiv.org/abs/2011.12340v2
- Date: Fri, 11 Mar 2022 21:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 13:21:20.800568
- Title: Zero-Shot Visual Slot Filling as Question Answering
- Title(参考訳): ゼロショットのビジュアルスロットフィリング : 質問への回答
- Authors: Larry Heck and Simon Heck
- Abstract要約: 本稿では,スロットフィリングタスクを質問応答として再構成することで,スロットフィリングに対する新しいアプローチを提案する。
リッチな自然言語の質問は、しばしばデバイス画面に表示される視覚情報と語彙のセマンティクスをキャプチャする。
これらの質問はユーザの発話と組み合わせられ、最先端のTransformerベースのディープラーニング質問応答システムを用いて発話からスロットを抽出する。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a new approach to slot filling by reformulating the slot
filling task as Question Answering, and replacing slot tags with rich natural
language questions that capture the semantics of visual information and lexical
text often displayed on device screens. These questions are paired with the
user's utterance, and slots are extracted from the utterance using a
state-of-the-art Transformer-based deep learning Question Answering system. An
approach to further refine the model with multi-task training is presented. The
multi-task approach facilitates the incorporation of a large number of
successive refinements and transfer learning across tasks. New visual slot
datasets and a visual extension of the popular ATIS dataset are introduced to
support research and experimentation on visual slot filling. Results show the
new approach not only maintains robust accuracy for sparse training conditions
but achieves state-of-the-art F1 of 0.97 on ATIS with approximately 1/10th the
training data.
- Abstract(参考訳): 本稿では,スロットフィリングタスクを質問回答として再構成し,スロットタグをリッチな自然言語質問に置き換えることで,視覚情報や語彙テキストのセマンティクスをデバイス画面に表示する手法を提案する。
これらの質問はユーザの発話と組み合わせられ、最先端のTransformerベースのディープラーニング質問応答システムを用いて発話からスロットを抽出する。
マルチタスクトレーニングによるモデルをさらに洗練するためのアプローチを提案する。
マルチタスクアプローチは、多くの連続した改良とタスク間での学習の取り込みを促進する。
新しいビジュアルスロットデータセットと一般的なATISデータセットのビジュアル拡張を導入し、ビジュアルスロットフィリングの研究と実験をサポートする。
その結果, 訓練条件の厳密な精度を維持するだけでなく, トレーニングデータの約10分の1をATISで0.97の最先端F1を達成することができた。
関連論文リスト
- XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser [35.69888780388425]
本研究では, 単純だが効果的な textbfMultimodal と textbfMultilingual semi-structured textbfFORM textbfXForm フレームワークを提案する。
textbfXFormは、包括的な事前訓練された言語モデルに固定されており、革新的にエンティティ認識とリレーショナルREである。
本フレームワークは,マルチ言語およびゼロショットの両文脈において,タスク間の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-05-27T16:37:17Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - Multimodal Inverse Cloze Task for Knowledge-based Visual Question
Answering [4.114444605090133]
名前付きエンティティに関する知識に基づく視覚質問応答のための事前学習手法であるMultimodal Inverse Cloze Taskを提案する。
KVQAEは最近導入されたタスクで、知識ベースを使用して視覚的コンテキストに接地された名前付きエンティティに関する質問に答える。
提案手法は異なるニューラルネットワークアーキテクチャに適用可能であり, 9%の相対MRR, 15%の相対F1ゲインが検索および読解に有効である。
論文 参考訳(メタデータ) (2023-01-11T09:16:34Z) - MoCA: Incorporating Multi-stage Domain Pretraining and Cross-guided
Multimodal Attention for Textbook Question Answering [7.367945534481411]
テキスト質問応答タスクに対して,多段階事前学習とマルチモーダルクロスアテンションを取り入れたMoCAという新しいモデルを提案する。
実験結果から,本モデルの精度が2.21%, 2.43%向上し, 検証精度が2.21%, テストスプリットが2.43%向上した。
論文 参考訳(メタデータ) (2021-12-06T07:58:53Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。