論文の概要: AutoPrep: Natural Language Question-Aware Data Preparation with a Multi-Agent Framework
- arxiv url: http://arxiv.org/abs/2412.10422v1
- Date: Tue, 10 Dec 2024 11:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:16.074530
- Title: AutoPrep: Natural Language Question-Aware Data Preparation with a Multi-Agent Framework
- Title(参考訳): AutoPrep: マルチエージェントフレームワークによる自然言語質問対応データ準備
- Authors: Meihao Fan, Ju Fan, Nan Tang, Lei Cao, Xiaoyong Du,
- Abstract要約: Tabular Question Answering (TQA)では、構造化データから意味のある洞察を抽出することができる。
従来のデータプリプとは異なり、質問対応データプリプは新しい要件を導入している。
複数エージェントの強みを生かした大規模言語モデル(LLM)に基づくマルチエージェントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.05772573456104
- License:
- Abstract: Answering natural language (NL) questions about tables, which is referred to as Tabular Question Answering (TQA), is important because it enables users to extract meaningful insights quickly and efficiently from structured data, bridging the gap between human language and machine-readable formats. Many of these tables originate from web sources or real-world scenarios, necessitating careful data preparation (or data prep for short) to ensure accurate answers. However, unlike traditional data prep, question-aware data prep introduces new requirements, which include tasks such as column augmentation and filtering for given questions, and question-aware value normalization or conversion. Because each of the above tasks is unique, a single model (or agent) may not perform effectively across all scenarios. In this paper, we propose AUTOPREP, a large language model (LLM)-based multi-agent framework that leverages the strengths of multiple agents, each specialized in a certain type of data prep, ensuring more accurate and contextually relevant responses. Given an NL question over a table, AUTOPREP performs data prep through three key components. Planner: Determines a logical plan, outlining a sequence of high-level operations. Programmer: Translates this logical plan into a physical plan by generating the corresponding low-level code. Executor: Iteratively executes and debugs the generated code to ensure correct outcomes. To support this multi-agent framework, we design a novel chain-of-thought reasoning mechanism for high-level operation suggestion, and a tool-augmented method for low-level code generation. Extensive experiments on real-world TQA datasets demonstrate that AUTOPREP can significantly improve the SOTA TQA solutions through question-aware data prep.
- Abstract(参考訳): TQA(Tabular Question Answering)と呼ばれるテーブルに関する自然言語(NL)質問の回答は、ユーザが構造化データから有意義な洞察を迅速かつ効率的に抽出し、人間の言語と機械可読形式の間のギャップを埋めることによって重要である。
これらのテーブルの多くは、Webソースや実世界のシナリオから生まれており、正確な回答を確実にするためには、慎重にデータの準備(あるいは短いデータ準備)が必要である。
しかし、従来のデータプリプとは異なり、質問認識データプリプでは、カラム拡張や所定の質問に対するフィルタリング、質問認識値の正規化や変換といったタスクを含む新しい要件が導入されている。
上記のタスクはそれぞれユニークであるため、単一のモデル(またはエージェント)がすべてのシナリオで効果的に実行できない可能性がある。
本稿では,大規模言語モデル(LLM)に基づくマルチエージェントフレームワークであるAUTOPREPを提案する。
テーブル上のNL質問に対して、AUTOPREPは3つのキーコンポーネントを通じてデータプリプを実行する。
Planner: 論理的な計画を決定し、一連のハイレベルな操作を概説する。
Programmer: この論理計画を、対応する低レベルコードを生成することで、物理的な計画に変換する。
Executor: 繰り返し、生成されたコードを実行してデバッグして、正確な結果を保証する。
このマルチエージェントフレームワークをサポートするために,ハイレベルな操作提案のための新しい連鎖推論機構と,低レベルなコード生成のためのツール拡張手法を設計する。
実世界のTQAデータセットに関する大規模な実験は、AUTOPREPが質問認識データプリプによってSOTA TQAソリューションを大幅に改善できることを示した。
関連論文リスト
- Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。
予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。
表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文 参考訳(メタデータ) (2024-10-04T16:26:12Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
効率的でスケーラブルなテキスト・ツー・クエリのためのフレームワークであるCHESSを紹介します。
特殊エージェントは4つあり、それぞれが上記の課題の1つをターゲットにしている。
私たちのフレームワークは、さまざまなデプロイメント制約に適応する機能を提供する。
論文 参考訳(メタデータ) (2024-05-27T01:54:16Z) - CleanAgent: Automating Data Standardization with LLM-based Agents [4.069939236366668]
カラム型を標準化するための宣言的統一APIを備えたPythonライブラリを提案する。
Dataprep.Cleanは、特定の列型を1行のコードで標準化可能にすることで、複雑さを大幅に削減する。
データ標準化プロセスを自動化するために、Dataprep.CleanとLLMベースのエージェントを統合するCleanAgentフレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-13T06:54:15Z) - Large Language Model for Table Processing: A Survey [18.32332372134988]
本調査では,テーブル関連タスクの概要について概観する。
テーブル質問応答やスプレッドシート操作やテーブルデータ分析といった新しいフィールドなど、従来のタスクをカバーしています。
論文 参考訳(メタデータ) (2024-02-04T00:47:53Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - Generate, Transform, Answer: Question Specific Tool Synthesis for
Tabular Data [6.3455238301221675]
タブラル質問応答(TQA)は、ニューラルネットワークにとって困難な設定である。
TQAプロセステーブルは直接的に処理され、テーブルのサイズが大きくなると情報損失が発生する。
本稿では,クエリ固有のプログラムを生成して,テーブルの変換にいつ適用すればよいかを検出するツールWriterを提案する。
論文 参考訳(メタデータ) (2023-03-17T17:26:56Z) - ReasTAP: Injecting Table Reasoning Skills During Pre-training via
Synthetic Reasoning Examples [15.212332890570869]
複雑なテーブル固有のアーキテクチャ設計を必要とせずに、事前学習中に高レベルのテーブル推論スキルをモデルに注入できることを示すためにReasTAPを開発した。
ReasTAPはすべてのベンチマークで最新のパフォーマンスを実現し、低リソース設定で大幅に改善されている。
論文 参考訳(メタデータ) (2022-10-22T07:04:02Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - Procedures as Programs: Hierarchical Control of Situated Agents through
Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-09-16T20:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。