論文の概要: TablePilot: Recommending Human-Preferred Tabular Data Analysis with Large Language Models
- arxiv url: http://arxiv.org/abs/2503.13262v2
- Date: Tue, 18 Mar 2025 14:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 10:31:48.748543
- Title: TablePilot: Recommending Human-Preferred Tabular Data Analysis with Large Language Models
- Title(参考訳): TablePilot: 大規模言語モデルによる人間優先の語彙データ分析の推奨
- Authors: Deyin Yi, Yihao Liu, Lang Cao, Mengyu Zhou, Haoyu Dong, Shi Han, Dongmei Zhang,
- Abstract要約: 大規模言語モデルを活用する先駆的なデータ分析フレームワークであるTablePilotを,包括的で優れた分析結果を自律的に生成する。
このフレームワークは、分析準備と分析最適化に重要な設計を取り入れ、精度を向上する。
また,レコメンデーション品質を向上し,ヒトの嗜好に適合する新しい手法であるRec-Alignを提案する。
- 参考スコア(独自算出の注目度): 44.4199653472754
- License:
- Abstract: Tabular data analysis is crucial in many scenarios, yet efficiently identifying the most relevant data analysis queries and results for a new table remains a significant challenge. The complexity of tabular data, diverse analytical operations, and the demand for high-quality analysis make the process tedious. To address these challenges, we aim to recommend query-code-result triplets tailored for new tables in tabular data analysis workflows. In this paper, we present TablePilot, a pioneering tabular data analysis framework leveraging large language models to autonomously generate comprehensive and superior analytical results without relying on user profiles or prior interactions. The framework incorporates key designs in analysis preparation and analysis optimization to enhance accuracy. Additionally, we propose Rec-Align, a novel method to further improve recommendation quality and better align with human preferences. Experiments on DART, a dataset specifically designed for comprehensive tabular data analysis recommendation, demonstrate the effectiveness of our framework. Based on GPT-4o, the tuned TablePilot achieves 77.0% top-5 recommendation recall. Human evaluations further highlight its effectiveness in optimizing tabular data analysis workflows.
- Abstract(参考訳): タブラルデータ分析は多くのシナリオにおいて重要であるが、最も関連性の高いデータ分析クエリと新しいテーブルの結果を効率的に識別することは依然として大きな課題である。
表形式のデータの複雑さ、多種多様な分析操作、高品質な分析の需要は、そのプロセスを退屈にしている。
これらの課題に対処するために、表データ分析ワークフローの新しいテーブルに適したクエリ-コード-result三つ子を推奨する。
本稿では,大規模言語モデルを活用した表型データ分析フレームワークであるTablePilotについて述べる。
このフレームワークは、分析準備と分析最適化に重要な設計を取り入れ、精度を向上する。
また,レコメンデーション品質を向上し,人間の嗜好に適合する新しい手法であるRec-Alignを提案する。
DARTに関する実験は、包括的な表データ分析の推奨のために特別に設計されたデータセットであり、我々のフレームワークの有効性を実証している。
GPT-4oに基づき、調整済みのTablePilotは77.0%のトップ5レコメンデーションリコールを達成した。
人間の評価は、表データ分析ワークフローを最適化する効果をさらに強調する。
関連論文リスト
- DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Persona-DB: Efficient Large Language Model Personalization for Response Prediction with Collaborative Data Refinement [79.2400720115588]
本稿では,タスクコンテキスト間の一般化を改善するための階層的な構築プロセスからなる,シンプルで効果的なフレームワークであるPersona-DBを紹介する。
応答予測の評価において,Persona-DB は精度を著しく低減した検索サイズで維持する上で,より優れたコンテキスト効率を示す。
我々の実験は、ユーザーが極めて少ないデータを持つ場合、コールドスタートシナリオで10%以上の顕著な改善が示されていることも示している。
論文 参考訳(メタデータ) (2024-02-16T20:20:43Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - JarviX: A LLM No code Platform for Tabular Data Analysis and
Optimization [2.3501230561204522]
JarviXは、LLM(Large Language Models)を使用して、自動ガイドと高精度データ解析を実行するように設計されている。
JarviXには、予測モデリングのための自動機械学習(AutoML)パイプラインが組み込まれている。
JarviXの有効性と適応性は、一連の実用的なユースケース研究を通じて実証されている。
論文 参考訳(メタデータ) (2023-12-03T07:03:04Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Cost-Sensitive Best Subset Selection for Logistic Regression: A
Mixed-Integer Conic Optimization Perspective [3.1468618177952785]
機械学習の主な課題は、透過的な予測を行うための最適なサブセットへの入力を削減できる解釈可能なモデルを設計することである。
混合整数コニック最適化の観点から,ロジスティック回帰のための最適特徴選択法を提案する。
これにより、異なる最適基数と予算制約のある特徴選択手順を体系的に評価できる。
論文 参考訳(メタデータ) (2023-10-09T07:13:40Z) - ASTA: Learning Analytical Semantics over Tables for Intelligent Data
Analysis and Visualization [32.06228510098419]
本稿では,ユーザ生成分析の背後にある共通分析パターンを明らかにするために,テーブル上の解析意味論を提案する。
本稿では,ユーザ意図からデータ焦点を分離し,データと人間の視点からユーザモチベーションを抽出して分析意味論を設計する。
また,知的テーブル分析を実証するために,初めて条件付きフォーマッティングを推奨するとともに,チャートレコメンデーションも提案する。
論文 参考訳(メタデータ) (2022-08-01T13:32:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。