論文の概要: DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation
- arxiv url: http://arxiv.org/abs/2403.02528v1
- Date: Mon, 4 Mar 2024 22:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:53:22.170450
- Title: DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation
- Title(参考訳): DACO:コード生成によるアプリケーション駆動および包括的データ分析を目指して
- Authors: Xueqing Wu, Rui Zheng, Jingzhen Sha, Te-Lin Wu, Hanyu Zhou, Mohan
Tang, Kai-Wei Chang, Nanyun Peng, Haoran Huang
- Abstract要約: データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
- 参考スコア(独自算出の注目度): 86.4326416303723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data analysis is a crucial analytical process to generate in-depth studies
and conclusive insights to comprehensively answer a given user query for
tabular data. In this work, we aim to propose new resources and benchmarks to
inspire future research on this crucial yet challenging and under-explored
task. However, collecting data analysis annotations curated by experts can be
prohibitively expensive. We propose to automatically generate high-quality
answer annotations leveraging the code-generation capabilities of LLMs with a
multi-turn prompting technique. We construct the DACO dataset, containing (1)
440 databases (of tabular data) collected from real-world scenarios, (2) ~2k
query-answer pairs that can serve as weak supervision for model training, and
(3) a concentrated but high-quality test set with human refined annotations
that serves as our main evaluation benchmark. We train a 6B supervised
fine-tuning (SFT) model on DACO dataset, and find that the SFT model learns
reasonable data analysis capabilities. To further align the models with human
preference, we use reinforcement learning to encourage generating analysis
perceived by human as helpful, and design a set of dense rewards to propagate
the sparse human preference reward to intermediate code generation steps. Our
DACO-RL algorithm is evaluated by human annotators to produce more helpful
answers than SFT model in 57.72% cases, validating the effectiveness of our
proposed algorithm. Data and code are released at
https://github.com/shirley-wu/daco
- Abstract(参考訳): データ分析は、与えられたユーザークエリに表データに対して包括的に答えるために、詳細な研究と決定的な洞察を生成する重要な分析プロセスである。
本研究では,この重要な課題に対して,今後の研究を刺激する新たなリソースとベンチマークを提案する。
しかし、専門家がキュレートしたデータ分析アノテーションの収集は違法にコストがかかる。
マルチターンプロンプト技術を用いて,LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
DACOデータセットを構築し,(1)実世界のシナリオから収集した440のデータベース,(2)モデルトレーニングの弱さに寄与する2kのクエリ・アンサーペア,(3)主要な評価ベンチマークとして機能する人間の精巧なアノテーションを用いた集中的かつ高品質なテストセットを含む。
我々はDACOデータセット上で6B教師付き微調整モデル(SFT)を訓練し、SFTモデルが妥当なデータ解析能力を学習していることを確認する。
モデルと人間の嗜好をさらに整合させるため、強化学習を用いて、人間によって認識される分析を補助的に生成し、より密集した報酬を設計し、人間の選好報酬を中間コード生成ステップに伝達する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価され、提案アルゴリズムの有効性が検証された。
データとコードはhttps://github.com/shirley-wu/dacoでリリース
関連論文リスト
- Are LLMs Capable of Data-based Statistical and Causal Reasoning?
Benchmarking Advanced Quantitative Reasoning with Data [94.56126023937233]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴って、411の質問を慎重に構築したデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - Benchmarking Data Science Agents [11.582116078653968]
大規模言語モデル(LLM)は、データサイエンスエージェントとして有望な支援として登場し、データ分析と処理において人間を支援している。
しかし、現実の応用の様々な要求と複雑な分析プロセスによって、それらの実用的有効性は依然として制限されている。
我々は、新しい評価パラダイムであるDSEvalと、これらのエージェントの性能を評価するための一連の革新的なベンチマークを紹介する。
論文 参考訳(メタデータ) (2024-02-27T03:03:06Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-23T14:38:33Z) - Critical Evaluation of LOCO dataset with Machine Learning [0.0]
本稿では,ロジスティックス・オブジェクト・イン・コンテクスト(LOCO)データセットを再評価する。
LOCOは、内科領域におけるオブジェクト検出のための最初のデータセットである。
論文 参考訳(メタデータ) (2022-09-27T16:17:01Z) - Deep Learning with Multiple Data Set: A Weighted Goal Programming
Approach [2.7393821783237184]
大規模データ分析は、我々の社会でデータが増大するにつれて、指数的な速度で成長している。
ディープラーニングモデルはたくさんのリソースを必要とし、分散トレーニングが必要です。
本稿では,分散学習のためのマルチ基準アプローチを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:10:25Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。