Fugu-MT 論文翻訳(概要): HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies

論文の概要: HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies

arxiv url: http://arxiv.org/abs/2406.10803v1
Date: Sun, 16 Jun 2024 04:53:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 20:41:29.405125
Title: HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies
Title（参考訳）: HiddenTables & PyQTax:TableQAのための協調ゲームとデータセット
Authors: William Watson, Nicole Cho, Tucker Balch, Manuela Veloso,
Abstract要約: 本稿では,この課題に対する潜在的な解決法として,HiddenTablesと呼ばれる協調ゲームを提案する。エージェントがテーブルQAタスクを解く能力を評価するコード生成「r」と「Oracleウィンドウ」の間で「HiddenTables」が再生される。複雑なクエリを一般化および実行できないLCMの集合性を実証する多種多様なテーブルの集合について明らかな実験を行う。
参考スコア（独自算出の注目度）: 9.09415727445941
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A myriad of different Large Language Models (LLMs) face a common challenge in contextually analyzing table question-answering tasks. These challenges are engendered from (1) finite context windows for large tables, (2) multi-faceted discrepancies amongst tokenization patterns against cell boundaries, and (3) various limitations stemming from data confidentiality in the process of using external models such as gpt-3.5-turbo. We propose a cooperative game dubbed "HiddenTables" as a potential resolution to this challenge. In essence, "HiddenTables" is played between the code-generating LLM "Solver" and the "Oracle" which evaluates the ability of the LLM agents to solve Table QA tasks. This game is based on natural language schemas and importantly, ensures the security of the underlying data. We provide evidential experiments on a diverse set of tables that demonstrate an LLM's collective inability to generalize and perform on complex queries, handle compositional dependencies, and align natural language to programmatic commands when concrete table schemas are provided. Unlike encoder-based models, we have pushed the boundaries of "HiddenTables" to not be limited by the number of rows - therefore we exhibit improved efficiency in prompt and completion tokens. Our infrastructure has spawned a new dataset "PyQTax" that spans across 116,671 question-table-answer triplets and provides additional fine-grained breakdowns & labels for varying question taxonomies. Therefore, in tandem with our academic contributions regarding LLMs' deficiency in TableQA tasks, "HiddenTables" is a tactile manifestation of how LLMs can interact with massive datasets while ensuring data security and minimizing generation costs.
Abstract（参考訳）: テーブル問合せタスクを文脈的に分析する際、LLM(Large Language Models)は多種多様である。これらの課題は,(1) 大規模テーブル用の有限コンテキストウィンドウ,(2) セル境界に対するトークン化パターン間の多面的相違,(3) gpt-3.5-turbo などの外部モデルの使用プロセスにおけるデータの機密性に起因する様々な制限から生じる。我々は,この課題に対する潜在的な解決法として,「HiddenTables」と呼ばれる協調ゲームを提案する。本質的に、"HiddenTables" は、コード生成する LLM "Solver" と、テーブルQA タスクを解く LLM エージェントの能力を評価する "Oracle" の間で行われる。このゲームは自然言語スキーマに基づいており、重要な点として、基盤となるデータのセキュリティを保証する。本研究では,LLMが複雑なクエリを一般化・実行できないこと,コンポジション依存を扱えること,具体的なテーブルスキーマが提供される場合に自然言語をプログラムコマンドに調整できることを実証する,多種多様なテーブルの集合に関する明らかな実験を行う。エンコーダベースのモデルとは異なり、"HiddenTables"の境界は行数によって制限されないよう押し付けました。我々のインフラストラクチャーは、新しいデータセット"PyQTax"を作成した。これは、116,671の質問表回答三つ子にまたがり、様々な質問分類のための詳細な詳細とラベルを提供する。したがって、テーブルQAタスクにおけるLLMの欠如に関する学術的貢献と合わせて、"HiddenTables"は、データセキュリティを確保し、生成コストを最小限に抑えながら、LLMが大規模データセットとどのように相互作用するかを示す、触覚的な表現である。

関連論文リスト

TableLoRA: Low-rank Adaptation on Table Structure Understanding for Large Language Models [57.005158277893194]
TableLoRA は、PEFT における LLM のテーブル構造理解を改善するために設計されたモジュールである。テーブルを特別なトークンエンコーダでシリアライズするための特別なトークンを組み込み、2D LoRAを使ってセル位置の低ランク情報をエンコードする。
論文参考訳（メタデータ） (2025-03-06T12:50:14Z)
Piece of Table: A Divide-and-Conquer Approach for Selecting Subtables in Table Question Answering [20.926770550682964]
PieTa - サブテーブルベースの質問応答(QA)のための新しいフレームワークテーブルを小さなウィンドウに分割する反復的なプロセスを通じて動作し、LMを使用して各ウィンドウ内で関連する細胞を選択し、これらの細胞をサブテーブルにマージする。従来のサブテーブルベースのQAアプローチよりもパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-12-10T16:08:14Z)
TableTime: Reformulating Time Series Classification as Zero-Shot Table Understanding via Large Language Models [54.44272772296578]
大規模言語モデル (LLM) は多変量時系列分類において有効であることを示した。 LLM は LLM の潜在空間内の時系列の埋め込みを直接コードし、LLM の意味空間と一致させる。 MTSCを表理解タスクとして再編成するテーブルタイムを提案する。
論文参考訳（メタデータ） (2024-11-24T07:02:32Z)
Accurate and Regret-aware Numerical Problem Solver for Tabular Question Answering [29.384514074911955]
本研究では,大規模言語モデルを用いたTabLaPというモデルを提案する。 TabLaPは最先端のモデルよりもかなり正確であることを示し、2つのデータセットで解の精度を5.7%と5.8%改善した。
論文参考訳（メタデータ） (2024-10-10T05:34:00Z)
TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。 TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-10-07T04:15:02Z)
Seek and Solve Reasoning for Table Question Answering [49.006950918895306]
本稿では,大規模言語モデルの推論機能を活用して,表に基づく質問応答(TQA)の性能を向上させる。人間がTQAタスクを解く方法に触発されて、私たちはLLMにまず関連する情報を求め、質問に答えるように指示するSeek-and-seekパイプラインを提案します。本稿では,パイプラインから抽出した単一段TQA分解プロンプトについて述べる。
論文参考訳（メタデータ） (2024-09-09T02:41:00Z)
RoundTable: Leveraging Dynamic Schema and Contextual Autocomplete for Enhanced Query Precision in Tabular Question Answering [11.214912072391108]
現実世界のデータセットは、大きな属性と複雑な値の配列を特徴とすることが多い。従来の手法ではデータセットのサイズと複雑さをLarge Language Modelsに完全にリレーすることはできません。入力テーブル上でFTS(Full-Text Search)を利用する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-22T13:13:06Z)
Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文参考訳（メタデータ） (2024-06-06T14:30:59Z)
TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。 TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文参考訳（メタデータ） (2024-06-05T20:32:56Z)
CABINET: Content Relevance based Noise Reduction for Table Question Answering [21.899938933558396]
CABINET(Content RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering)は、大規模言語モデル(LLM)が外部情報を抑制することで関連するデータに集中できるようにするフレームワークである。ノイズを導出し、様々なサイズのテーブル上でパフォーマンスを維持し、WikiTQ、FeTaQA、Wikiデータセット上で新しいSoTAパフォーマンスを確立する。
論文参考訳（メタデータ） (2024-02-02T05:48:39Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
MultiTabQA: Generating Tabular Answers for Multi-Table Question Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文参考訳（メタデータ） (2023-05-22T08:25:15Z)
OmniTab: Pretraining with Natural and Synthetic Data for Few-shot Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文参考訳（メタデータ） (2022-07-08T01:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。