論文の概要: Realistic Data Augmentation Framework for Enhancing Tabular Reasoning
- arxiv url: http://arxiv.org/abs/2210.12795v1
- Date: Sun, 23 Oct 2022 17:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:35:39.931867
- Title: Realistic Data Augmentation Framework for Enhancing Tabular Reasoning
- Title(参考訳): 語彙推論の強化のための実データ拡張フレームワーク
- Authors: Dibyakanti Kumar and Vivek Gupta and Soumya Sharma and Shuo Zhang
- Abstract要約: 半構造化テーブル推論のような自然言語推論タスクのためのトレーニングデータを構築するための既存のアプローチは、クラウドソーシングまたは完全に自動化された方法である。
本稿では,表型推論のためのデータ拡張のための現実的な半自動フレームワークを開発する。
- 参考スコア(独自算出の注目度): 15.339526664699845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing approaches to constructing training data for Natural Language
Inference (NLI) tasks, such as for semi-structured table reasoning, are either
via crowdsourcing or fully automatic methods. However, the former is expensive
and time-consuming and thus limits scale, and the latter often produces naive
examples that may lack complex reasoning. This paper develops a realistic
semi-automated framework for data augmentation for tabular inference. Instead
of manually generating a hypothesis for each table, our methodology generates
hypothesis templates transferable to similar tables. In addition, our framework
entails the creation of rational counterfactual tables based on human written
logical constraints and premise paraphrasing. For our case study, we use the
InfoTabs, which is an entity-centric tabular inference dataset. We observed
that our framework could generate human-like tabular inference examples, which
could benefit training data augmentation, especially in the scenario with
limited supervision.
- Abstract(参考訳): 半構造化テーブル推論のような自然言語推論(nli)タスクのためのトレーニングデータを構築する既存のアプローチは、クラウドソーシングか完全自動メソッドである。
しかし、前者は高価で時間がかかり、スケールが制限されるため、後者は複雑な推論を欠いた単純な例をしばしば生み出す。
本稿では,表型推論のためのデータ拡張のための現実的な半自動フレームワークを開発する。
提案手法では,各表に対して仮説を手動で生成する代わりに,類似表に転送可能な仮説テンプレートを生成する。
さらに,本フレームワークは,人間の記述した論理的制約と前提パラフレーズに基づく合理的な反事実表を作成する。
ケーススタディでは、エンティティ中心の表型推論データセットであるInfoTabsを使用します。
このフレームワークが人間に似た表型推論の例を生成して、特に限定的な監視を伴うシナリオにおいて、トレーニングデータ拡張のメリットを享受できることを観察した。
関連論文リスト
- LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Chain-of-Table: Evolving Tables in the Reasoning Chain for Table
Understanding [79.9461269253121]
そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。
Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-09T07:46:26Z) - UniTabE: A Universal Pretraining Protocol for Tabular Foundation Model
in Data Science [16.384705926693073]
本研究は,データサイエンスにおける表上での予測を容易にするために,事前学習方法論の能力を拡張することを目的とする。
テーブルを一様に処理するために設計されたUniTabEは、特定のテーブル構造によって課される制約を無視する。
プレトレーニングフェーズを実装するため,Kaggleプラットフォームから正確に収集した約13Bサンプルからなる拡張データセットをキュレートした。
論文 参考訳(メタデータ) (2023-07-18T13:28:31Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - Towards Table-to-Text Generation with Pretrained Language Model: A Table
Structure Understanding and Text Deliberating Approach [60.03002572791552]
本稿では,テーブル構造理解とテキスト検討手法,すなわちTASDを提案する。
具体的には,表構造を考慮したテキスト生成モデルを実現するために,三層多層アテンションネットワークを考案する。
われわれのアプローチは、様々な種類のテーブルに対して忠実で流動的な記述テキストを生成することができる。
論文 参考訳(メタデータ) (2023-01-05T14:03:26Z) - Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework [5.351873055148804]
自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。
我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。
UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
論文 参考訳(メタデータ) (2022-12-20T09:15:03Z) - Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。
ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。
第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文 参考訳(メタデータ) (2022-11-23T00:04:57Z) - ReasTAP: Injecting Table Reasoning Skills During Pre-training via
Synthetic Reasoning Examples [15.212332890570869]
複雑なテーブル固有のアーキテクチャ設計を必要とせずに、事前学習中に高レベルのテーブル推論スキルをモデルに注入できることを示すためにReasTAPを開発した。
ReasTAPはすべてのベンチマークで最新のパフォーマンスを実現し、低リソース設定で大幅に改善されている。
論文 参考訳(メタデータ) (2022-10-22T07:04:02Z) - TabPert: An Effective Platform for Tabular Perturbation [6.555691728969102]
TabPertを使用すると、ユーザはテーブルを更新し、関連する仮説を変更し、ラベルを変更し、仮説分類に重要な行をハイライトすることができる。
これらのカウンターファクトテーブルと仮説は、メタデータと同様に、既存のモデルの欠点を体系的かつ定量的に探求するために使用することができる。
論文 参考訳(メタデータ) (2021-08-02T02:37:48Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。