論文の概要: Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework
- arxiv url: http://arxiv.org/abs/2212.10097v2
- Date: Fri, 21 Jun 2024 03:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 20:54:41.632898
- Title: Optimization Techniques for Unsupervised Complex Table Reasoning via Self-Training Framework
- Title(参考訳): 自己学習フレームワークによる教師なし複合テーブル推論の最適化手法
- Authors: Zhenyu Li, Xiuxing Li, Sunqi Fan, Jianyong Wang,
- Abstract要約: 自己学習フレームワークは複雑な論理を持つ多様な合成データを生成する。
我々は「テーブル・テキスト・マニピュレータ(Table-Text Manipulator)」を用いて、共同テーブル・テキスト推論シナリオの処理を最適化する。
UCTRSTは、異なるタスクやドメインにおける教師付きモデルパフォーマンスの90%以上を達成する。
- 参考スコア(独自算出の注目度): 5.351873055148804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured tabular data is a fundamental data type in numerous fields, and the capacity to reason over tables is crucial for answering questions and validating hypotheses. However, constructing labeled data for complex reasoning tasks is labor intensive, and the quantity of annotated data remains insufficient to support the intricate demands of real-world applications. To address the insufficient annotation challenge, we present a self-training framework for unsupervised complex tabular reasoning (UCTR-ST) by generating diverse synthetic data with complex logic. Specifically, UCTR-ST incorporates several essential techniques: we aggregate diverse programs and execute them on tables based on a "Program-Management" component, and we bridge the gap between programs and text with a powerful "Program-Transformation" module that generates natural language sentences with complex logic. Furthermore, we optimize the procedure using a "Table-Text Manipulator" to handle joint table-text reasoning scenarios. The entire framework utilizes self-training techniques to leverage the unlabeled training data, which results in significant performance improvements when tested on real-world data. Experimental results demonstrate that UCTRST achieves above 90% of the supervised model performance on different tasks and domains, reducing the dependence on manual annotation. Additionally, our approach can serve as a data augmentation technique, significantly boosting the performance of supervised models in low-resourced domains.
- Abstract(参考訳): 構造化表データは多くの分野の基本データ型であり、質問への回答や仮説の検証にはテーブル上の推論能力が不可欠である。
しかし、複雑な推論タスクのためのラベル付きデータの構築は労働集約的であり、注釈付きデータの量は、現実世界のアプリケーションの複雑な要求をサポートするには不十分である。
アノテーションの不足に対処するため,複雑な論理を用いた多種多様な合成データを生成することにより,教師なし複雑な表型推論(UCTR-ST)のための自己学習フレームワークを提案する。
具体的には、多様なプログラムを集約し、"Program-Management"コンポーネントに基づいてテーブル上で実行し、複雑な論理で自然言語文を生成する強力な"Program-Transformation"モジュールでプログラムとテキストのギャップを埋める。
さらに,「テーブルテキストマニピュレータ」を用いて,共同テーブルテキスト推論シナリオの処理を最適化する。
フレームワーク全体には,ラベルのないトレーニングデータを活用するための自己学習技術が使用されている。
実験の結果,UCTRSTはタスクやドメインの教師付きモデルの性能の90%以上を達成でき,手作業によるアノテーションへの依存を低減できることがわかった。
さらに,本手法はデータ拡張手法として機能し,低リソース領域における教師付きモデルの性能を大幅に向上させる。
関連論文リスト
- TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
この設定をよりよく評価し、モデリング作業を容易にするために、テーブルを通してのテキストと計算について紹介する。
TACTには、1つ以上のテキストに散在する縫合情報を要求し、この情報を複雑な統合して回答を生成する、困難な命令が含まれている。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
我々は,関連するデータとコンテキストを検索し,効率的なスキーマを選択し,正確で効率的なクエリを合成する新しいパイプラインを提案する。
提案手法は,BIRDデータセットの領域横断における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-27T01:54:16Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning [58.11442663694328]
テーブルプロンプトを生成するための多用途前処理ツールボックスとして,TAP4LLMを提案する。
各モジュールにおいて、様々なシナリオで使用されるいくつかの一般的なメソッドを収集し、設計する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Towards Table-to-Text Generation with Pretrained Language Model: A Table
Structure Understanding and Text Deliberating Approach [60.03002572791552]
本稿では,テーブル構造理解とテキスト検討手法,すなわちTASDを提案する。
具体的には,表構造を考慮したテキスト生成モデルを実現するために,三層多層アテンションネットワークを考案する。
われわれのアプローチは、様々な種類のテーブルに対して忠実で流動的な記述テキストを生成することができる。
論文 参考訳(メタデータ) (2023-01-05T14:03:26Z) - Realistic Data Augmentation Framework for Enhancing Tabular Reasoning [15.339526664699845]
半構造化テーブル推論のような自然言語推論タスクのためのトレーニングデータを構築するための既存のアプローチは、クラウドソーシングまたは完全に自動化された方法である。
本稿では,表型推論のためのデータ拡張のための現実的な半自動フレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T17:32:19Z) - Exploring Decomposition for Table-based Fact Verification [18.584226291619217]
複雑な文を単純なサブプロブレムに分解することで事実検証を改善する。
提案手法は,TabFactベンチマークにおいて,82.7%の精度で最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-22T20:15:05Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。