論文の概要: HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies
- arxiv url: http://arxiv.org/abs/2406.10803v1
- Date: Sun, 16 Jun 2024 04:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:41:29.405125
- Title: HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies
- Title(参考訳): HiddenTables & PyQTax:TableQAのための協調ゲームとデータセット
- Authors: William Watson, Nicole Cho, Tucker Balch, Manuela Veloso,
- Abstract要約: 本稿では,この課題に対する潜在的な解決法として,HiddenTablesと呼ばれる協調ゲームを提案する。
エージェントがテーブルQAタスクを解く能力を評価するコード生成「r」と「Oracleウィンドウ」の間で「HiddenTables」が再生される。
複雑なクエリを一般化および実行できないLCMの集合性を実証する多種多様なテーブルの集合について明らかな実験を行う。
- 参考スコア(独自算出の注目度): 9.09415727445941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A myriad of different Large Language Models (LLMs) face a common challenge in contextually analyzing table question-answering tasks. These challenges are engendered from (1) finite context windows for large tables, (2) multi-faceted discrepancies amongst tokenization patterns against cell boundaries, and (3) various limitations stemming from data confidentiality in the process of using external models such as gpt-3.5-turbo. We propose a cooperative game dubbed "HiddenTables" as a potential resolution to this challenge. In essence, "HiddenTables" is played between the code-generating LLM "Solver" and the "Oracle" which evaluates the ability of the LLM agents to solve Table QA tasks. This game is based on natural language schemas and importantly, ensures the security of the underlying data. We provide evidential experiments on a diverse set of tables that demonstrate an LLM's collective inability to generalize and perform on complex queries, handle compositional dependencies, and align natural language to programmatic commands when concrete table schemas are provided. Unlike encoder-based models, we have pushed the boundaries of "HiddenTables" to not be limited by the number of rows - therefore we exhibit improved efficiency in prompt and completion tokens. Our infrastructure has spawned a new dataset "PyQTax" that spans across 116,671 question-table-answer triplets and provides additional fine-grained breakdowns & labels for varying question taxonomies. Therefore, in tandem with our academic contributions regarding LLMs' deficiency in TableQA tasks, "HiddenTables" is a tactile manifestation of how LLMs can interact with massive datasets while ensuring data security and minimizing generation costs.
- Abstract(参考訳): テーブル問合せタスクを文脈的に分析する際、LLM(Large Language Models)は多種多様である。
これらの課題は,(1) 大規模テーブル用の有限コンテキストウィンドウ,(2) セル境界に対するトークン化パターン間の多面的相違,(3) gpt-3.5-turbo などの外部モデルの使用プロセスにおけるデータの機密性に起因する様々な制限から生じる。
我々は,この課題に対する潜在的な解決法として,「HiddenTables」と呼ばれる協調ゲームを提案する。
本質的に、"HiddenTables" は、コード生成する LLM "Solver" と、テーブルQA タスクを解く LLM エージェントの能力を評価する "Oracle" の間で行われる。
このゲームは自然言語スキーマに基づいており、重要な点として、基盤となるデータのセキュリティを保証する。
本研究では,LLMが複雑なクエリを一般化・実行できないこと,コンポジション依存を扱えること,具体的なテーブルスキーマが提供される場合に自然言語をプログラムコマンドに調整できることを実証する,多種多様なテーブルの集合に関する明らかな実験を行う。
エンコーダベースのモデルとは異なり、"HiddenTables"の境界は行数によって制限されないよう押し付けました。
我々のインフラストラクチャーは、新しいデータセット"PyQTax"を作成した。これは、116,671の質問表回答三つ子にまたがり、様々な質問分類のための詳細な詳細とラベルを提供する。
したがって、テーブルQAタスクにおけるLLMの欠如に関する学術的貢献と合わせて、"HiddenTables"は、データセキュリティを確保し、生成コストを最小限に抑えながら、LLMが大規模データセットとどのように相互作用するかを示す、触覚的な表現である。
関連論文リスト
- Piece of Table: A Divide-and-Conquer Approach for Selecting Subtables in Table Question Answering [20.926770550682964]
PieTa - サブテーブルベースの質問応答(QA)のための新しいフレームワーク
テーブルを小さなウィンドウに分割する反復的なプロセスを通じて動作し、LMを使用して各ウィンドウ内で関連する細胞を選択し、これらの細胞をサブテーブルにマージする。
従来のサブテーブルベースのQAアプローチよりもパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-12-10T16:08:14Z) - Accurate and Regret-aware Numerical Problem Solver for Tabular Question Answering [29.384514074911955]
本研究では,大規模言語モデルを用いたTabLaPというモデルを提案する。
TabLaPは最先端のモデルよりもかなり正確であることを示し、2つのデータセットで解の精度を5.7%と5.8%改善した。
論文 参考訳(メタデータ) (2024-10-10T05:34:00Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - RoundTable: Leveraging Dynamic Schema and Contextual Autocomplete for Enhanced Query Precision in Tabular Question Answering [11.214912072391108]
現実世界のデータセットは、大きな属性と複雑な値の配列を特徴とすることが多い。
従来の手法ではデータセットのサイズと複雑さをLarge Language Modelsに完全にリレーすることはできません。
入力テーブル上でFTS(Full-Text Search)を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T13:13:06Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - CABINET: Content Relevance based Noise Reduction for Table Question
Answering [21.899938933558396]
CABINET(Content RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering)は、大規模言語モデル(LLM)が外部情報を抑制することで関連するデータに集中できるようにするフレームワークである。
ノイズを導出し、様々なサイズのテーブル上でパフォーマンスを維持し、WikiTQ、FeTaQA、Wikiデータセット上で新しいSoTAパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-02-02T05:48:39Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。