論文の概要: WikiTableEdit: A Benchmark for Table Editing by Natural Language
Instruction
- arxiv url: http://arxiv.org/abs/2403.02962v1
- Date: Tue, 5 Mar 2024 13:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 14:51:11.919734
- Title: WikiTableEdit: A Benchmark for Table Editing by Natural Language
Instruction
- Title(参考訳): WikiTableEdit: 自然言語によるテーブル編集のためのベンチマーク
- Authors: Zheng Li and Xiang Chen and Xiaojun Wan
- Abstract要約: 本稿では,表編集作業におけるLarge Language Models(LLM)の性能について検討する。
Wikiデータセットから26,531のテーブルを活用し、6つの異なる基本操作のための自然言語命令を生成する。
WikiTableEditデータセット上でいくつかの代表的大規模言語モデルを評価し,その課題を実証する。
- 参考スコア(独自算出の注目度): 56.196512595940334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data, as a crucial form of data representation, exists in diverse
formats on the Web. When confronted with complex and irregular tables, manual
modification becomes a laborious task. This paper investigates the performance
of Large Language Models (LLMs) in the context of table editing tasks. Existing
research mainly focuses on regular-shaped tables, wherein instructions are used
to generate code in SQL, Python, or Excel Office-script for manipulating the
tables. Nevertheless, editing tables with irregular structures, particularly
those containing merged cells spanning multiple rows, poses a challenge when
using code. To address this, we introduce the WikiTableEdit dataset. Leveraging
26,531 tables from the WikiSQL dataset, we automatically generate natural
language instructions for six distinct basic operations and the corresponding
outcomes, resulting in over 200,000 instances. Subsequently, we evaluate
several representative large language models on the WikiTableEdit dataset to
demonstrate the challenge of this task. The dataset will be released to the
community to promote related researches.
- Abstract(参考訳): タブラルデータは、データ表現の重要な形態として、Web上の様々なフォーマットに存在する。
複雑で不規則なテーブルに直面すると、手作業による修正は面倒な作業になる。
本稿では,表編集作業におけるLarge Language Models(LLM)の性能について検討する。
既存の研究は主に正規型のテーブルに焦点を当てており、SQL、Python、Excel Office-scriptでテーブルを操作するための命令が使われている。
それでも、不規則な構造、特に複数の行にまたがるマージセルを含むテーブルの編集は、コードを使用する際の課題となっている。
これを解決するために、WikiTableEditデータセットを導入します。
WikiSQLデータセットから26,531のテーブルを活用することで、6つの異なる基本操作と対応する結果に対する自然言語命令を自動的に生成し、20,000以上のインスタンスが生成される。
その後、WikiTableEditデータセット上でいくつかの代表的大規模言語モデルを評価し、その課題を実証する。
データセットはコミュニティにリリースされ、関連する研究を促進する。
関連論文リスト
- gTBLS: Generating Tables from Text by Conditional Question Answering [3.240750198587796]
本稿では、生成テーブル(gTBLS)と呼ばれる2段階のアプローチを提案する。
第1段は、テキストからテーブル構造(ロウとカラムヘッダ)を推論する。
第2段階では、これらのヘッダを使って質問を定式化し、それに対応するために因果言語モデルを微調整する。
論文 参考訳(メタデータ) (2024-03-21T15:04:32Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Generate, Transform, Answer: Question Specific Tool Synthesis for
Tabular Data [6.3455238301221675]
タブラル質問応答(TQA)は、ニューラルネットワークにとって困難な設定である。
TQAプロセステーブルは直接的に処理され、テーブルのサイズが大きくなると情報損失が発生する。
本稿では,クエリ固有のプログラムを生成して,テーブルの変換にいつ適用すればよいかを検出するツールWriterを提案する。
論文 参考訳(メタデータ) (2023-03-17T17:26:56Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。