論文の概要: CABINET: Content Relevance based Noise Reduction for Table Question
Answering
- arxiv url: http://arxiv.org/abs/2402.01155v1
- Date: Fri, 2 Feb 2024 05:48:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 16:53:31.070914
- Title: CABINET: Content Relevance based Noise Reduction for Table Question
Answering
- Title(参考訳): CABINET:テーブル質問応答のためのコンテンツ関連に基づくノイズ低減
- Authors: Sohan Patnaik, Heril Changwal, Milan Aggarwal, Sumita Bhatia, Yaman
Kumar, Balaji Krishnamurthy
- Abstract要約: CABINET(Content RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering)は、大規模言語モデル(LLM)が外部情報を抑制することで関連するデータに集中できるようにするフレームワークである。
ノイズを導出し、様々なサイズのテーブル上でパフォーマンスを維持し、WikiTQ、FeTaQA、Wikiデータセット上で新しいSoTAパフォーマンスを確立する。
- 参考スコア(独自算出の注目度): 16.20435143582167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table understanding capability of Large Language Models (LLMs) has been
extensively studied through the task of question-answering (QA) over tables.
Typically, only a small part of the whole table is relevant to derive the
answer for a given question. The irrelevant parts act as noise and are
distracting information, resulting in sub-optimal performance due to the
vulnerability of LLMs to noise. To mitigate this, we propose CABINET (Content
RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering) - a framework to
enable LLMs to focus on relevant tabular data by suppressing extraneous
information. CABINET comprises an Unsupervised Relevance Scorer (URS), trained
differentially with the QA LLM, that weighs the table content based on its
relevance to the input question before feeding it to the question-answering LLM
(QA LLM). To further aid the relevance scorer, CABINET employs a weakly
supervised module that generates a parsing statement describing the criteria of
rows and columns relevant to the question and highlights the content of
corresponding table cells. CABINET significantly outperforms various tabular
LLM baselines, as well as GPT3-based in-context learning methods, is more
robust to noise, maintains outperformance on tables of varying sizes, and
establishes new SoTA performance on WikiTQ, FeTaQA, and WikiSQL datasets. We
release our code and datasets at https://github.com/Sohanpatnaik106/CABINET_QA.
- Abstract(参考訳): 大規模言語モデル(LLM)の表理解能力は,質問応答(QA)をテーブル上で行うことで,広範囲に研究されている。
通常、テーブル全体の小さな部分だけが、与えられた質問に対する答えを導出するのに関係している。
無関係な部品はノイズとして機能し、ノイズに対するLSMの脆弱性のため、情報の邪魔となる。
そこで,本研究では,llmが表データに焦点を合わせることを可能にする枠組みであるキャビネット(表質問応答のためのコンテント関連に基づくノイズ低減)を提案する。
CABINETは、QA LLMと差分訓練されたUnsupervised Relevance Scorer(URS)と、QA LLM(QA LLM)に応答する前に入力された質問に対する関連性に基づいてテーブル内容を測定する。
関連スコアラをさらに支援するために、CABINETは、質問に関連する行と列の基準を記述した解析文を生成し、対応するテーブルセルの内容を強調する弱教師付きモジュールを使用している。
CABINET は様々な表形式の LLM ベースラインと GPT3 ベースのインコンテキスト学習手法を著しく上回り、ノイズに対して堅牢であり、様々なサイズのテーブル上でパフォーマンスを維持し、WikiTQ、FeTaQA、WikiSQL データセット上で新たな SoTA パフォーマンスを確立する。
コードとデータセットはhttps://github.com/Sohanpatnaik106/CABINET_QAで公開しています。
関連論文リスト
- TableTime: Reformulating Time Series Classification as Zero-Shot Table Understanding via Large Language Models [54.44272772296578]
大規模言語モデル (LLM) は多変量時系列分類において有効であることを示した。
LLM は LLM の潜在空間内の時系列の埋め込みを直接コードし、LLM の意味空間と一致させる。
MTSCを表理解タスクとして再編成するテーブルタイムを提案する。
論文 参考訳(メタデータ) (2024-11-24T07:02:32Z) - From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。
分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。
発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文 参考訳(メタデータ) (2024-06-25T16:32:33Z) - HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies [9.09415727445941]
本稿では,この課題に対する潜在的な解決法として,HiddenTablesと呼ばれる協調ゲームを提案する。
エージェントがテーブルQAタスクを解く能力を評価するコード生成「r」と「Oracleウィンドウ」の間で「HiddenTables」が再生される。
複雑なクエリを一般化および実行できないLCMの集合性を実証する多種多様なテーブルの集合について明らかな実験を行う。
論文 参考訳(メタデータ) (2024-06-16T04:53:29Z) - Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。
テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文 参考訳(メタデータ) (2024-06-06T14:30:59Z) - KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - TabSQLify: Enhancing Reasoning Capabilities of LLMs Through Table Decomposition [6.253771639590562]
テーブル推論は、自然言語の質問と構造化データの両方を理解する必要がある難しいタスクである。
テキスト・ツー・ジェネレーションを利用したテーブルを,より小さく,関連するサブテーブルに分解する新しい方法であるTabifyを提案する。
WikiTQベンチマークでは,64.7%の精度で精度が向上した。
論文 参考訳(メタデータ) (2024-04-15T21:42:20Z) - Chain-of-Table: Evolving Tables in the Reasoning Chain for Table
Understanding [79.9461269253121]
そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。
Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-09T07:46:26Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。
重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。