論文の概要: A Methodology for Creating Question Answering Corpora Using Inverse Data
Annotation
- arxiv url: http://arxiv.org/abs/2004.07633v2
- Date: Thu, 25 Jun 2020 08:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 20:43:12.005845
- Title: A Methodology for Creating Question Answering Corpora Using Inverse Data
Annotation
- Title(参考訳): 逆データアノテーションを用いた質問応答コーパス作成手法
- Authors: Jan Deriu, Katsiaryna Mlynchyk, Philippe Schl\"apfer, Alvaro Rodrigo,
Dirk von Gr\"unigen, Nicolas Kaiser, Kurt Stockinger, Eneko Agirre, and Mark
Cieliebak
- Abstract要約: 本稿では,構造化データに対する質問応答のためのコーパスを効率的に構築するための新しい手法を提案する。
本研究では,文脈自由文法からOTをランダムに生成する。
提案手法を適用して,大規模な意味解析コーパスであるOTTA(Operation Trees and Token Assignment)を作成する。
- 参考スコア(独自算出の注目度): 16.914116942666976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel methodology to efficiently construct a
corpus for question answering over structured data. For this, we introduce an
intermediate representation that is based on the logical query plan in a
database called Operation Trees (OT). This representation allows us to invert
the annotation process without losing flexibility in the types of queries that
we generate. Furthermore, it allows for fine-grained alignment of query tokens
to OT operations. In our method, we randomly generate OTs from a context-free
grammar. Afterwards, annotators have to write the appropriate natural language
question that is represented by the OT. Finally, the annotators assign the
tokens to the OT operations. We apply the method to create a new corpus OTTA
(Operation Trees and Token Assignment), a large semantic parsing corpus for
evaluating natural language interfaces to databases. We compare OTTA to Spider
and LC-QuaD 2.0 and show that our methodology more than triples the annotation
speed while maintaining the complexity of the queries. Finally, we train a
state-of-the-art semantic parsing model on our data and show that our corpus is
a challenging dataset and that the token alignment can be leveraged to increase
the performance significantly.
- Abstract(参考訳): 本稿では,構造化データ上で質問応答を行うコーパスを効率的に構築する新しい手法を提案する。
そこで我々は,OT(Operation Trees)と呼ばれるデータベースにおいて,論理的クエリ計画に基づく中間表現を導入する。
この表現は、生成するクエリのタイプで柔軟性を失うことなく、アノテーションプロセスの反転を可能にします。
さらに、クエリトークンをOT操作にきめ細かいアライメントを可能にする。
本手法では,文脈自由文法からランダムにotを生成する。
その後、アノテーションはOTで表される適切な自然言語の質問を書く必要がある。
最後に、アノテーションはトークンをOT操作に割り当てる。
本手法は,データベースへの自然言語インタフェース評価のための大規模意味構文解析コーパスである,新しいコーパスotta (operation tree and token assignment) の作成に適用する。
我々は,otta と spider と lc-quad 2.0 を比較し,クエリの複雑さを維持しつつアノテーションの速度を3倍以上にする手法を示した。
最後に、データに最先端のセマンティック解析モデルをトレーニングし、我々のコーパスが困難なデータセットであること、トークンアライメントを利用してパフォーマンスを大幅に向上できることを示します。
関連論文リスト
- Improving Retrieval-augmented Text-to-SQL with AST-based Ranking and Schema Pruning [10.731045939849125]
本稿では,テキストからセマンティックへの解析に注目する。
商用データベースのスキーマのサイズとビジネスインテリジェンスソリューションのデプロイ可能性に関する課題から,入力データベース情報を動的に取得する $textASTReS$ を提案する。
論文 参考訳(メタデータ) (2024-07-03T15:55:14Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset [6.633914491587503]
本稿では,Alpacaを用いた文脈検索学習データセットを提案する。
このデータセットを用いて、NERの関連するコンテキストを見つけることができるBERTモデルに基づいて、ニューラルネットワークコンテキストレトリバーをトレーニングする。
本手法は,40冊の本の第1章からなる英文データセットにおいて,NERタスクの検索ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-16T06:53:12Z) - Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文 参考訳(メタデータ) (2023-10-08T06:18:14Z) - STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing [64.80483736666123]
文脈依存型テキスト・ツー・パースのための新しい事前学習フレームワークSTARを提案する。
さらに,STARを事前学習するための大規模コンテキスト依存型テキスト対話コーパスを構築した。
大規模な実験により、STARは2つの下流ベンチマークで新しい最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-10-21T11:30:07Z) - Generating Synthetic Data for Task-Oriented Semantic Parsing with
Hierarchical Representations [0.8203855808943658]
本研究では,ニューラルセマンティック解析のための合成データ生成の可能性を検討する。
具体的には、まず既存のラベル付き発話からマスク付きテンプレートを抽出し、次に微調整BARTを用いて合成発話条件を生成する。
ナビゲーション領域のためのFacebook TOPデータセットを評価する際に、我々のアプローチの可能性を示す。
論文 参考訳(メタデータ) (2020-11-03T22:55:40Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。