Fugu-MT 論文翻訳(概要): Toward a Unified Framework for Unsupervised Complex Tabular Reasoning

論文の概要: Toward a Unified Framework for Unsupervised Complex Tabular Reasoning

arxiv url: http://arxiv.org/abs/2212.10097v1
Date: Tue, 20 Dec 2022 09:15:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 14:19:24.681705
Title: Toward a Unified Framework for Unsupervised Complex Tabular Reasoning
Title（参考訳）: unsupervised complex tabular reasoningのための統一フレームワークに向けて
Authors: Zhenyu Li, Xiuxing Li, Zhichao Duan, Bowen Dong, Ning Liu, Jianyong Wang
Abstract要約: 本稿では,教師なし複雑な表型推論のための統一的なフレームワークを提案する。ヒューマンアノテートされたデータを全く含まないと仮定して、タスクを推論するための複雑な論理を持つ十分かつ多様な合成データを生成する。実験の結果,教師なし手法は教師なしモデルと比較して,少なくとも93%の性能を達成できることがわかった。
参考スコア（独自算出の注目度）: 7.275757913661363
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Structured tabular data exist across nearly all fields. Reasoning task over these data aims to answer questions or determine the truthiness of hypothesis sentences by understanding the semantic meaning of a table. While previous works have devoted significant efforts to the tabular reasoning task, they always assume there are sufficient labeled data. However, constructing reasoning samples over tables (and related text) is labor-intensive, especially when the reasoning process is complex. When labeled data is insufficient, the performance of models will suffer an unendurable decline. In this paper, we propose a unified framework for unsupervised complex tabular reasoning (UCTR), which generates sufficient and diverse synthetic data with complex logic for tabular reasoning tasks, assuming no human-annotated data at all. We first utilize a random sampling strategy to collect diverse programs of different types and execute them on tables based on a "Program-Executor" module. To bridge the gap between the programs and natural language sentences, we design a powerful "NL-Generator" module to generate natural language sentences with complex logic from these programs. Since a table often occurs with its surrounding texts, we further propose novel "Table-to-Text" and "Text-to-Table" operators to handle joint table-text reasoning scenarios. This way, we can adequately exploit the unlabeled table resources to obtain a well-performed reasoning model under an unsupervised setting. Our experiments cover different tasks (question answering and fact verification) and different domains (general and specific), showing that our unsupervised methods can achieve at most 93% performance compared to supervised models. We also find that it can substantially boost the supervised performance in low-resourced domains as a data augmentation technique. Our code is available at https://github.com/leezythu/UCTR.
Abstract（参考訳）: 構造化表データはほとんど全ての分野に存在している。これらのデータに対する推論タスクは、表の意味的意味を理解することによって、疑問に答えるか、仮説文の真偽を判断することを目的としている。以前の研究は表的な推論タスクに多大な努力を払ったが、彼らは常に十分なラベル付きデータがあると仮定している。しかしながら、テーブル(および関連するテキスト)上の推論サンプルの構築は、特に推論プロセスが複雑である場合、労働集約的である。ラベル付きデータが不十分な場合、モデルの性能は耐え難いほど低下する。本稿では,表推論タスクのための複雑な論理を持つ十分な多種多様な合成データを生成する,教師なし複雑な表的推論(uctr)のための統一フレームワークを提案する。まず,ランダムサンプリング戦略を用いて様々な種類のプログラムを収集し,プログラム実行モジュールに基づいてテーブル上で実行した。プログラムと自然言語文のギャップを埋めるため,これらのプログラムから複雑な論理を持つ自然言語文を生成するための強力なnl生成モジュールを設計した。テーブルは周囲のテキストでしばしば発生するため、新たな「table-to-text」と「text-to-table」演算子を提案する。これにより、ラベルなしのテーブルリソースを適切に活用し、教師なしの設定でよく表現された推論モデルを得ることができる。質問応答と事実検証) と異なる領域(一般および特定) を対象とし, 教師なし手法は教師なしモデルと比較して少なくとも93%の性能で達成可能であることを示す。また、データ拡張技術として、低リソース領域における教師付き性能を大幅に向上させることができる。私たちのコードはhttps://github.com/leezythu/uctr.comで利用可能です。

関連論文リスト

LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文参考訳（メタデータ） (2025-06-06T05:14:04Z)
Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。 sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。 sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文参考訳（メタデータ） (2025-06-04T15:46:30Z)
Beyond Quacking: Deep Integration of Language Models and RAG into DuckDB [44.057784044659726]
大規模言語モデル(LLM)により、このような検索と推論データパイプラインのプロトタイプがより簡単になった。これはしばしば、データシステムのオーケストレーション、データムーブメントの管理、低レベルの詳細処理を含む。我々はFlockMTLを紹介した。FlockMTLはLLM機能と検索拡張生成を深く統合した抽象化用拡張である。
論文参考訳（メタデータ） (2025-04-01T19:48:17Z)
LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。 LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。 LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-04T00:47:52Z)
Theme-Explanation Structure for Table Summarization using Large Language Models: A Case Study on Korean Tabular Data [1.0621665950143144]
現在の表要約法は、人間に優しい出力の重要な側面を無視することが多い。本稿では,Theme-Explanation Structure-based Table Summarization (Tabular-TX) パイプラインを紹介する。
論文参考訳（メタデータ） (2025-01-17T08:42:49Z)
TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data [9.390415313514762]
TARGAは、手動のアノテーションなしで高関連性合成データを生成するフレームワークである。これは、クローズソースモデルを使用する既存の非微調整手法よりも大幅に優れている。非I.I.D.設定下では、優れたサンプル効率、堅牢性、一般化能力を示す。
論文参考訳（メタデータ） (2024-12-27T09:16:39Z)
Better Think with Tables: Tabular Structures Enhance LLM Comprehension for Data-Analytics Requests [33.471112091886894]
大規模言語モデル(LLM)は、情報検索やデータ操作に関連するデータ分析要求に悩まされることが多い。我々は、データ分析要求のために表構造をLCMに注入するThinking with Tablesを紹介した。テーブルを提供すると平均的なパフォーマンスが40.29パーセント向上し、操作性やトークン効率が向上することを示す。
論文参考訳（メタデータ） (2024-12-22T23:31:03Z)
Reasoning-Aware Query-Focused Summarization over Multi-Table Data [1.325953054381901]
大規模言語モデル(LLM)を利用したエンドツーエンド生成フレームワークであるQueryTableSummarizer++を提案する。本手法では,中間シリアライズステップの必要性を排除し,クエリ関連要約を直接生成する。ベンチマークデータセットの実験では、QueryTableSummarizer++がBLEU、ROUGE、F1スコアで最先端のベースラインを大幅に上回っていることが示されている。
論文参考訳（メタデータ） (2024-12-12T06:04:31Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
Tree-of-Table: Unleashing the Power of LLMs for Enhanced Large-Scale Table Understanding [42.841205217768106]
トレー・オブ・タブル(Tree-of-Table)は、LLMが大規模で複雑なテーブル上での推論能力を高めるために設計された新しいアプローチである。 Tree-of-Tableは優れた性能を持つ新しいベンチマークをセットし、大規模テーブル推論における顕著な効率性と一般化能力を示す。
論文参考訳（メタデータ） (2024-11-13T11:02:04Z)
Scalable Representation Learning for Multimodal Tabular Transactions [14.18267117657451]
これらの課題に対して、革新的でスケーラブルなソリューションを提示します。トランザクションとテキストのモダリティをインターリーブするパラメータ効率の良いデコーダを提案する。我々は,大規模な合成決済トランザクションデータセット上でのソリューションの有効性を検証した。
論文参考訳（メタデータ） (2024-10-10T12:18:42Z)
Knowledge in Triples for LLMs: Enhancing Table QA Accuracy with Semantic Extraction [1.0968343822308813]
本稿では,表型データから直交三重項を抽出し,それを検索拡張生成(RAG)モデルに統合することにより,微調整GPT-3.5-turbo-0125モデルにより生成された応答の精度,コヒーレンス,コンテキスト的リッチ性を向上させる手法を提案する。 FeTaQAデータセットの既存のベースライン、特にSacre-BLEUとROUGEの指標に優れています。
論文参考訳（メタデータ） (2024-09-21T16:46:15Z)
TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。 TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文参考訳（メタデータ） (2024-06-05T20:32:56Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
Towards Table-to-Text Generation with Pretrained Language Model: A Table Structure Understanding and Text Deliberating Approach [60.03002572791552]
本稿では,テーブル構造理解とテキスト検討手法,すなわちTASDを提案する。具体的には,表構造を考慮したテキスト生成モデルを実現するために,三層多層アテンションネットワークを考案する。われわれのアプローチは、様々な種類のテーブルに対して忠実で流動的な記述テキストを生成することができる。
論文参考訳（メタデータ） (2023-01-05T14:03:26Z)
Realistic Data Augmentation Framework for Enhancing Tabular Reasoning [15.339526664699845]
半構造化テーブル推論のような自然言語推論タスクのためのトレーニングデータを構築するための既存のアプローチは、クラウドソーシングまたは完全に自動化された方法である。本稿では,表型推論のためのデータ拡張のための現実的な半自動フレームワークを開発する。
論文参考訳（メタデータ） (2022-10-23T17:32:19Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。