論文の概要: MK-SQuIT: Synthesizing Questions using Iterative Template-filling
- arxiv url: http://arxiv.org/abs/2011.02566v1
- Date: Wed, 4 Nov 2020 22:33:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:15:54.453137
- Title: MK-SQuIT: Synthesizing Questions using Iterative Template-filling
- Title(参考訳): MK-SQuIT:反復的テンプレート充填による質問の合成
- Authors: Benjamin A. Spiegel, Vincent Cheong, James E. Kaplan, Anthony Sanchez
- Abstract要約: 我々は、できるだけ少ない人間の入力で、質問/問い合わせペアを合成的に生成するフレームワークを作成します。
これらのデータセットは、自然言語の質問をクエリに変換するために、機械翻訳システムのトレーニングに使用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The aim of this work is to create a framework for synthetically generating
question/query pairs with as little human input as possible. These datasets can
be used to train machine translation systems to convert natural language
questions into queries, a useful tool that could allow for more natural access
to database information. Existing methods of dataset generation require human
input that scales linearly with the size of the dataset, resulting in small
datasets. Aside from a short initial configuration task, no human input is
required during the query generation process of our system. We leverage
WikiData, a knowledge base of RDF triples, as a source for generating the main
content of questions and queries. Using multiple layers of question templating
we are able to sidestep some of the most challenging parts of query generation
that have been handled by humans in previous methods; humans never have to
modify, aggregate, inspect, annotate, or generate any questions or queries at
any step in the process. Our system is easily configurable to multiple domains
and can be modified to generate queries in natural languages other than
English. We also present an example dataset of 110,000 question/query pairs
across four WikiData domains. We then present a baseline model that we train
using the dataset which shows promise in a commercial QA setting.
- Abstract(参考訳): この研究の目的は、できるだけ少ない人間の入力で質問/問い合わせペアを合成的に生成するフレームワークを作ることである。
これらのデータセットは、自然言語の質問をクエリに変換するための機械翻訳システムのトレーニングに使用することができる。
既存のデータセット生成の方法は、データセットのサイズと線形にスケールする人間の入力を必要とし、結果として小さなデータセットとなる。
簡単な初期設定タスク以外は、システムのクエリ生成プロセス中に人間の入力は不要である。
RDFトリプルの知識ベースであるWikiDataを,質問やクエリの主要なコンテンツを生成するソースとして利用しています。
質問テンプレートの複数のレイヤを使用することで、以前の方法で人間が処理したクエリ生成の最も困難な部分のいくつかを回避できます。
システムは複数のドメインに簡単に設定でき、英語以外の自然言語でクエリを生成するように変更できます。
また、4つのWikiDataドメインにまたがる110,000の質問/問い合わせペアの例を示す。
次に、商用QA設定でpromiseを示すデータセットを使用してトレーニングするベースラインモデルを示す。
関連論文リスト
- Text2SQL is Not Enough: Unifying AI and Databases with TAG [47.45480855418987]
Table-Augmented Generation (TAG) は、データベース上の自然言語の質問に答えるパラダイムである。
我々は、TAG問題を研究するためのベンチマークを開発し、標準手法がクエリの20%以上を正しく答えることを発見した。
論文 参考訳(メタデータ) (2024-08-27T00:50:14Z) - A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文 参考訳(メタデータ) (2023-10-30T10:14:52Z) - A Practical Toolkit for Multilingual Question and Answer Generation [79.31199020420827]
我々は,マルチ言語QAGのオンラインサービスであるAutoQGと,モデル微調整,生成,評価のためのオールインワンPythonパッケージであるlmqgを紹介した。
また、事前訓練されたエンコーダ-デコーダ言語モデルのいくつかの変種を微調整した8言語でQAGモデルをリリースしています。
論文 参考訳(メタデータ) (2023-05-27T08:42:37Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z) - VANiLLa : Verbalized Answers in Natural Language at Large Scale [2.9098477555578333]
このデータセットは、CSQAとSimpleQuestionsWikidataデータセットから適応された100万以上の単純な質問で構成されている。
このデータセットの回答文は、三つの事実よりも構文的に、意味的に質問に近い。
論文 参考訳(メタデータ) (2021-05-24T16:57:54Z) - Answering Open-Domain Questions of Varying Reasoning Steps from Text [39.48011017748654]
我々は,テキストのオープンドメイン質問から直接回答する統一システムを開発した。
我々は、必要なすべてのサブタスクを実行するために、単一のマルチタスクトランスモデルを用いる。
我々のモデルは既存のベンチマークとこの新しいベンチマークの両方で競合性能を示す。
論文 参考訳(メタデータ) (2020-10-23T16:51:09Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Efficient Deployment of Conversational Natural Language Interfaces over
Databases [45.52672694140881]
本稿では、自然言語からクエリ言語への機械学習モデルを開発するためのトレーニングデータセット収集を高速化する新しい手法を提案する。
本システムでは,対話セッションを定義した対話型多言語データを生成することができる。
論文 参考訳(メタデータ) (2020-05-31T19:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。