論文の概要: Toward a Unified Framework for Unsupervised Complex Tabular Reasoning
- arxiv url: http://arxiv.org/abs/2212.10097v1
- Date: Tue, 20 Dec 2022 09:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:19:24.681705
- Title: Toward a Unified Framework for Unsupervised Complex Tabular Reasoning
- Title(参考訳): unsupervised complex tabular reasoningのための統一フレームワークに向けて
- Authors: Zhenyu Li, Xiuxing Li, Zhichao Duan, Bowen Dong, Ning Liu, Jianyong
Wang
- Abstract要約: 本稿では,教師なし複雑な表型推論のための統一的なフレームワークを提案する。
ヒューマンアノテートされたデータを全く含まないと仮定して、タスクを推論するための複雑な論理を持つ十分かつ多様な合成データを生成する。
実験の結果,教師なし手法は教師なしモデルと比較して,少なくとも93%の性能を達成できることがわかった。
- 参考スコア(独自算出の注目度): 7.275757913661363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured tabular data exist across nearly all fields. Reasoning task over
these data aims to answer questions or determine the truthiness of hypothesis
sentences by understanding the semantic meaning of a table. While previous
works have devoted significant efforts to the tabular reasoning task, they
always assume there are sufficient labeled data. However, constructing
reasoning samples over tables (and related text) is labor-intensive, especially
when the reasoning process is complex. When labeled data is insufficient, the
performance of models will suffer an unendurable decline. In this paper, we
propose a unified framework for unsupervised complex tabular reasoning (UCTR),
which generates sufficient and diverse synthetic data with complex logic for
tabular reasoning tasks, assuming no human-annotated data at all. We first
utilize a random sampling strategy to collect diverse programs of different
types and execute them on tables based on a "Program-Executor" module. To
bridge the gap between the programs and natural language sentences, we design a
powerful "NL-Generator" module to generate natural language sentences with
complex logic from these programs. Since a table often occurs with its
surrounding texts, we further propose novel "Table-to-Text" and "Text-to-Table"
operators to handle joint table-text reasoning scenarios. This way, we can
adequately exploit the unlabeled table resources to obtain a well-performed
reasoning model under an unsupervised setting. Our experiments cover different
tasks (question answering and fact verification) and different domains (general
and specific), showing that our unsupervised methods can achieve at most 93%
performance compared to supervised models. We also find that it can
substantially boost the supervised performance in low-resourced domains as a
data augmentation technique. Our code is available at
https://github.com/leezythu/UCTR.
- Abstract(参考訳): 構造化表データはほとんど全ての分野に存在している。
これらのデータに対する推論タスクは、表の意味的意味を理解することによって、疑問に答えるか、仮説文の真偽を判断することを目的としている。
以前の研究は表的な推論タスクに多大な努力を払ったが、彼らは常に十分なラベル付きデータがあると仮定している。
しかしながら、テーブル(および関連するテキスト)上の推論サンプルの構築は、特に推論プロセスが複雑である場合、労働集約的である。
ラベル付きデータが不十分な場合、モデルの性能は耐え難いほど低下する。
本稿では,表推論タスクのための複雑な論理を持つ十分な多種多様な合成データを生成する,教師なし複雑な表的推論(uctr)のための統一フレームワークを提案する。
まず,ランダムサンプリング戦略を用いて様々な種類のプログラムを収集し,プログラム実行モジュールに基づいてテーブル上で実行した。
プログラムと自然言語文のギャップを埋めるため,これらのプログラムから複雑な論理を持つ自然言語文を生成するための強力なnl生成モジュールを設計した。
テーブルは周囲のテキストでしばしば発生するため、新たな「table-to-text」と「text-to-table」演算子を提案する。
これにより、ラベルなしのテーブルリソースを適切に活用し、教師なしの設定でよく表現された推論モデルを得ることができる。
質問応答と事実検証) と異なる領域(一般および特定) を対象とし, 教師なし手法は教師なしモデルと比較して少なくとも93%の性能で達成可能であることを示す。
また、データ拡張技術として、低リソース領域における教師付き性能を大幅に向上させることができる。
私たちのコードはhttps://github.com/leezythu/uctr.comで利用可能です。
関連論文リスト
- Chain-of-Table: Evolving Tables in the Reasoning Chain for Table
Understanding [79.9461269253121]
そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。
Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-09T07:46:26Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning [58.11442663694328]
テーブルプロンプトを生成するための多用途前処理ツールボックスとして,TAP4LLMを提案する。
各モジュールにおいて、様々なシナリオで使用されるいくつかの一般的なメソッドを収集し、設計する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Large Language Models are Versatile Decomposers: Decompose Evidence and
Questions for Table-based Reasoning [45.013230888670435]
大規模言語モデル(LLM)を効率的なテーブルベースの推論のためのデコンパイラとして活用する。
巨大な証拠(巨大な表)をサブエビデンス(小さな表)に分解し、無駄な情報の干渉を軽減する。
我々は,思考連鎖のジレンマを軽減するために,「パーシング・エグゼクティオン・フィリング」戦略を提案する。
論文 参考訳(メタデータ) (2023-01-31T17:51:45Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Realistic Data Augmentation Framework for Enhancing Tabular Reasoning [15.339526664699845]
半構造化テーブル推論のような自然言語推論タスクのためのトレーニングデータを構築するための既存のアプローチは、クラウドソーシングまたは完全に自動化された方法である。
本稿では,表型推論のためのデータ拡張のための現実的な半自動フレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T17:32:19Z) - ReasTAP: Injecting Table Reasoning Skills During Pre-training via
Synthetic Reasoning Examples [15.212332890570869]
複雑なテーブル固有のアーキテクチャ設計を必要とせずに、事前学習中に高レベルのテーブル推論スキルをモデルに注入できることを示すためにReasTAPを開発した。
ReasTAPはすべてのベンチマークで最新のパフォーマンスを実現し、低リソース設定で大幅に改善されている。
論文 参考訳(メタデータ) (2022-10-22T07:04:02Z) - HiTab: A Hierarchical Table Dataset for Question Answering and Natural
Language Generation [35.73434495391091]
階層テーブルは、計算と意味論の暗黙の関係と同様に、階層的な索引付けによって既存の手法に挑戦する。
この研究は、階層テーブル上で質問応答(QA)と自然言語生成(NLG)を研究する研究コミュニティのための、自由でオープンなデータセットであるHiTabを提示する。
論文 参考訳(メタデータ) (2021-08-15T10:14:21Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。