論文の概要: Korean-Specific Dataset for Table Question Answering
- arxiv url: http://arxiv.org/abs/2201.06223v1
- Date: Mon, 17 Jan 2022 05:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 07:11:29.539901
- Title: Korean-Specific Dataset for Table Question Answering
- Title(参考訳): テーブル質問に対する韓国特有データセット
- Authors: Changwook Jun, Jooyoung Choi, Myoseop Sim, Hyun Kim, Hansol Jang,
Kyungkoo Min
- Abstract要約: 日本語で書かれた質問応答のための韓国語固有のデータセットを構築した。
韓国のテーブル質問回答コーパスは、クラウドソース労働者による70万対の質問と回答で構成されている。
データセットをGitHubリポジトリ経由で公開しています。
- 参考スコア(独自算出の注目度): 3.7056358801102682
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing question answering systems mainly focus on dealing with text data.
However, much of the data produced daily is stored in the form of tables that
can be found in documents and relational databases, or on the web. To solve the
task of question answering over tables, there exist many datasets for table
question answering written in English, but few Korean datasets. In this paper,
we demonstrate how we construct Korean-specific datasets for table question
answering: Korean tabular dataset is a collection of 1.4M tables with
corresponding descriptions for unsupervised pre-training language models.
Korean table question answering corpus consists of 70k pairs of questions and
answers created by crowd-sourced workers. Subsequently, we then build a
pre-trained language model based on Transformer, and fine-tune the model for
table question answering with these datasets. We then report the evaluation
results of our model. We make our datasets publicly available via our GitHub
repository, and hope that those datasets will help further studies for question
answering over tables, and for transformation of table formats.
- Abstract(参考訳): 既存の質問応答システムは、主にテキストデータを扱うことに焦点を当てている。
しかし、毎日生成されるデータの多くは、ドキュメントやリレーショナルデータベース、あるいはWebで見られるテーブルの形式で格納されます。
テーブル上の質問応答のタスクを解決するために、英語で書かれたテーブル質問応答のデータセットは数多く存在するが、韓国語データセットは少ない。
本稿では,テーブル質問応答のための韓国固有のデータセットの構築方法を示す。 韓国表型データセットは1.4mのテーブルの集合であり,教師なし事前学習言語モデルに対応する記述である。
韓国語表質問応答コーパスは,クラウドソース作業員が作成する70k組の質問と回答で構成されている。
その後、Transformerに基づいて事前訓練された言語モデルを構築し、これらのデータセットに答えるテーブル質問のモデルを微調整する。
次に,本モデルの評価結果を報告する。
当社のデータセットをgithubリポジトリ経由で公開し、これらのデータセットがテーブル上の質問応答やテーブルフォーマットの変換に関するさらなる研究に役立つことを期待しています。
関連論文リスト
- Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。
予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。
表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文 参考訳(メタデータ) (2024-10-04T16:26:12Z) - TANQ: An open domain dataset of table answered questions [15.323690523538572]
TANQは、複数のソースにまたがる情報からテーブルを構築する必要がある、最初のオープンドメイン質問応答データセットである。
結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。
最も優れたベースラインであるGPT4は、全体的なF1スコア29.1に達し、人間のパフォーマンスを19.7ポイント遅れています。
論文 参考訳(メタデータ) (2024-05-13T14:07:20Z) - WikiTableEdit: A Benchmark for Table Editing by Natural Language
Instruction [56.196512595940334]
本稿では,表編集作業におけるLarge Language Models(LLM)の性能について検討する。
Wikiデータセットから26,531のテーブルを活用し、6つの異なる基本操作のための自然言語命令を生成する。
WikiTableEditデータセット上でいくつかの代表的大規模言語モデルを評価し,その課題を実証する。
論文 参考訳(メタデータ) (2024-03-05T13:33:12Z) - Augment before You Try: Knowledge-Enhanced Table Question Answering via
Table Expansion [57.53174887650989]
テーブル質問応答は、構造化されたデータを理解し、相互作用するモデルの能力を評価する一般的なタスクである。
既存の方法は表と外部の知識の両方をテキストに変換し、表の構造的な性質を無視する。
そこで本稿では,表に外部情報を統合するための簡易で効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-01-28T03:37:11Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - TableQuery: Querying tabular data with natural language [0.0]
TableQueryでは、質問応答のための事前訓練されたディープラーニングモデルを使用して、自然言語クエリを構造化クエリに変換する。
質問応答のために事前訓練されたディープラーニングモデルは、HuggingFace Model Hubなどのプラットフォームで簡単に利用できる。
TableQueryは、再トレーニングを必要としない。より優れたパフォーマンスで質問応答のための新しくトレーニングされたモデルが利用可能になった場合、TableQueryの既存のモデルを置き換えることができる。
論文 参考訳(メタデータ) (2022-01-27T17:26:25Z) - PeCoQ: A Dataset for Persian Complex Question Answering over Knowledge
Graph [0.0]
本稿では,ペルシャ語質問応答のためのデータセットである textitPeCoQ を紹介する。
このデータセットには、ペルシャの知識グラフであるFarsBaseから抽出された1万の複雑な質問と回答が含まれている。
データセットには、マルチリレーション、マルチエンタリティ、順序性、時間的制約など、さまざまな種類の複雑さがある。
論文 参考訳(メタデータ) (2021-06-27T08:21:23Z) - Summarizing and Exploring Tabular Data in Conversational Search [36.14882974814593]
会話指向のオープンドメインテーブル要約データセットを新たに構築する。
注釈付きテーブルサマリーが含まれており、質問に答えるだけでなく、テーブル内の他の情報を探索するのに役立つ。
本データセットを用いて,SOTAベースラインとして自動テーブル要約システムの開発を行う。
論文 参考訳(メタデータ) (2020-05-23T08:29:51Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。