論文の概要: HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies
- arxiv url: http://arxiv.org/abs/2406.10803v1
- Date: Sun, 16 Jun 2024 04:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:41:29.405125
- Title: HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies
- Title(参考訳): HiddenTables & PyQTax:TableQAのための協調ゲームとデータセット
- Authors: William Watson, Nicole Cho, Tucker Balch, Manuela Veloso,
- Abstract要約: 本稿では,この課題に対する潜在的な解決法として,HiddenTablesと呼ばれる協調ゲームを提案する。
エージェントがテーブルQAタスクを解く能力を評価するコード生成「r」と「Oracleウィンドウ」の間で「HiddenTables」が再生される。
複雑なクエリを一般化および実行できないLCMの集合性を実証する多種多様なテーブルの集合について明らかな実験を行う。
- 参考スコア(独自算出の注目度): 9.09415727445941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A myriad of different Large Language Models (LLMs) face a common challenge in contextually analyzing table question-answering tasks. These challenges are engendered from (1) finite context windows for large tables, (2) multi-faceted discrepancies amongst tokenization patterns against cell boundaries, and (3) various limitations stemming from data confidentiality in the process of using external models such as gpt-3.5-turbo. We propose a cooperative game dubbed "HiddenTables" as a potential resolution to this challenge. In essence, "HiddenTables" is played between the code-generating LLM "Solver" and the "Oracle" which evaluates the ability of the LLM agents to solve Table QA tasks. This game is based on natural language schemas and importantly, ensures the security of the underlying data. We provide evidential experiments on a diverse set of tables that demonstrate an LLM's collective inability to generalize and perform on complex queries, handle compositional dependencies, and align natural language to programmatic commands when concrete table schemas are provided. Unlike encoder-based models, we have pushed the boundaries of "HiddenTables" to not be limited by the number of rows - therefore we exhibit improved efficiency in prompt and completion tokens. Our infrastructure has spawned a new dataset "PyQTax" that spans across 116,671 question-table-answer triplets and provides additional fine-grained breakdowns & labels for varying question taxonomies. Therefore, in tandem with our academic contributions regarding LLMs' deficiency in TableQA tasks, "HiddenTables" is a tactile manifestation of how LLMs can interact with massive datasets while ensuring data security and minimizing generation costs.
- Abstract(参考訳): テーブル問合せタスクを文脈的に分析する際、LLM(Large Language Models)は多種多様である。
これらの課題は,(1) 大規模テーブル用の有限コンテキストウィンドウ,(2) セル境界に対するトークン化パターン間の多面的相違,(3) gpt-3.5-turbo などの外部モデルの使用プロセスにおけるデータの機密性に起因する様々な制限から生じる。
我々は,この課題に対する潜在的な解決法として,「HiddenTables」と呼ばれる協調ゲームを提案する。
本質的に、"HiddenTables" は、コード生成する LLM "Solver" と、テーブルQA タスクを解く LLM エージェントの能力を評価する "Oracle" の間で行われる。
このゲームは自然言語スキーマに基づいており、重要な点として、基盤となるデータのセキュリティを保証する。
本研究では,LLMが複雑なクエリを一般化・実行できないこと,コンポジション依存を扱えること,具体的なテーブルスキーマが提供される場合に自然言語をプログラムコマンドに調整できることを実証する,多種多様なテーブルの集合に関する明らかな実験を行う。
エンコーダベースのモデルとは異なり、"HiddenTables"の境界は行数によって制限されないよう押し付けました。
我々のインフラストラクチャーは、新しいデータセット"PyQTax"を作成した。これは、116,671の質問表回答三つ子にまたがり、様々な質問分類のための詳細な詳細とラベルを提供する。
したがって、テーブルQAタスクにおけるLLMの欠如に関する学術的貢献と合わせて、"HiddenTables"は、データセキュリティを確保し、生成コストを最小限に抑えながら、LLMが大規模データセットとどのように相互作用するかを示す、触覚的な表現である。
関連論文リスト
- TableTime: Reformulating Time Series Classification as Zero-Shot Table Understanding via Large Language Models [54.44272772296578]
大規模言語モデル (LLM) は多変量時系列分類において有効であることを示した。
LLM は LLM の潜在空間内の時系列の埋め込みを直接コードし、LLM の意味空間と一致させる。
MTSCを表理解タスクとして再編成するテーブルタイムを提案する。
論文 参考訳(メタデータ) (2024-11-24T07:02:32Z) - Accurate and Regret-aware Numerical Problem Solver for Tabular Question Answering [29.384514074911955]
本研究では,大規模言語モデルを用いたTabLaPというモデルを提案する。
TabLaPは最先端のモデルよりもかなり正確であることを示し、2つのデータセットで解の精度を5.7%と5.8%改善した。
論文 参考訳(メタデータ) (2024-10-10T05:34:00Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Seek and Solve Reasoning for Table Question Answering [49.006950918895306]
本稿では,大規模言語モデルの推論機能を活用して,表に基づく質問応答(TQA)の性能を向上させる。
人間がTQAタスクを解く方法に触発されて、私たちはLLMにまず関連する情報を求め、質問に答えるように指示するSeek-and-seekパイプラインを提案します。
本稿では,パイプラインから抽出した単一段TQA分解プロンプトについて述べる。
論文 参考訳(メタデータ) (2024-09-09T02:41:00Z) - RoundTable: Leveraging Dynamic Schema and Contextual Autocomplete for Enhanced Query Precision in Tabular Question Answering [11.214912072391108]
現実世界のデータセットは、大きな属性と複雑な値の配列を特徴とすることが多い。
従来の手法ではデータセットのサイズと複雑さをLarge Language Modelsに完全にリレーすることはできません。
入力テーブル上でFTS(Full-Text Search)を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T13:13:06Z) - Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。
テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文 参考訳(メタデータ) (2024-06-06T14:30:59Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - CABINET: Content Relevance based Noise Reduction for Table Question
Answering [21.899938933558396]
CABINET(Content RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering)は、大規模言語モデル(LLM)が外部情報を抑制することで関連するデータに集中できるようにするフレームワークである。
ノイズを導出し、様々なサイズのテーブル上でパフォーマンスを維持し、WikiTQ、FeTaQA、Wikiデータセット上で新しいSoTAパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-02-02T05:48:39Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。