論文の概要: Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow
- arxiv url: http://arxiv.org/abs/2306.07209v6
- Date: Sun, 4 Aug 2024 17:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 00:35:17.056191
- Title: Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow
- Title(参考訳): Data-Copilot: 自律ワークフローで数十億のデータと人間をブリッジする
- Authors: Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang,
- Abstract要約: 金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
- 参考スコア(独自算出の注目度): 49.724842920942024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industries such as finance, meteorology, and energy generate vast amounts of data daily. Efficiently managing, processing, and displaying this data requires specialized expertise and is often tedious and repetitive. Leveraging large language models (LLMs) to develop an automated workflow presents a highly promising solution. However, LLMs are not adept at handling complex numerical computations and table manipulations and are also constrained by a limited context budget. Based on this, we propose Data-Copilot, a data analysis agent that autonomously performs querying, processing, and visualization of massive data tailored to diverse human requests. The advancements are twofold: First, it is a code-centric agent that receives human requests and generates code as an intermediary to handle massive data, which is quite flexible for large-scale data processing tasks. Second, Data-Copilot involves a data exploration phase in advance, which explores how to design more universal and error-free interfaces for real-time response. Specifically, it actively explores data sources, discovers numerous common requests, and abstracts them into many universal interfaces for daily invocation. When deployed in real-time requests, Data-Copilot only needs to invoke these pre-designed interfaces, transforming raw data into visualized outputs (e.g., charts, tables) that best match the user's intent. Compared to generating code from scratch, invoking these pre-designed and compiler-validated interfaces can significantly reduce errors during real-time requests. Additionally, interface workflows are more efficient and offer greater interpretability than code. We open-sourced Data-Copilot with massive Chinese financial data, such as stocks, funds, and news, demonstrating promising application prospects.
- Abstract(参考訳): 金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
このデータの効率的な管理、処理、表示には専門的な専門知識が必要です。
自動化ワークフローの開発に大規模言語モデル(LLM)を活用することは、非常に有望なソリューションである。
しかし、LLMは複雑な数値計算やテーブル操作に不適であり、文脈予算の制限もある。
そこで本研究では,データ分析エージェントであるData-Copilotを提案する。
まず、人間のリクエストを受け取り、大量のデータを処理する仲介役としてコードを生成するコード中心のエージェントで、大規模なデータ処理タスクに非常に柔軟です。
第2に、Data-Copilotには事前にデータ探索フェーズが含まれており、リアルタイム応答のためのより普遍的でエラーのないインターフェースを設計する方法を探っている。
具体的には、データソースを積極的に探索し、多くの共通要求を発見し、それらを日々の呼び出しのために多くのユニバーサルインターフェースに抽象化する。
リアルタイムリクエストにデプロイする場合、Data-Copilotは事前に設計されたインターフェースを呼び出すだけで、生データを視覚化された出力(例えば、チャート、テーブル)に変換し、ユーザの意図に最もよくマッチする。
スクラッチからコードを生成するのに比べ、事前に設計され、コンパイラに検証されたインターフェイスを呼び出すことで、リアルタイムリクエスト時のエラーを大幅に削減できる。
さらに、インターフェースワークフローはより効率的で、コードよりも解釈性が高い。
当社はData-Copilotをオープンソース化し、株式、ファンド、ニュースなどの大規模な中国金融データを公開し、将来有望なアプリケーションの見通しを示した。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Data Interpreter: An LLM Agent For Data Science [43.13678782387546]
LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。
しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。
本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
論文 参考訳(メタデータ) (2024-02-28T19:49:55Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - In-depth Analysis On Parallel Processing Patterns for High-Performance
Dataframes [0.0]
本稿では,分散データフレーム演算子の並列処理パターンと参照ランタイム実装であるCylonについて述べる。
本稿では,これらのパターンを評価するためのコストモデルを導入することで,初期概念を拡張している。
ORNL Summit スーパーコンピュータにおける Cylon の性能評価を行った。
論文 参考訳(メタデータ) (2023-07-03T23:11:03Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - Machine Learning for Temporal Data in Finance: Challenges and
Opportunities [0.0]
一時データは金融サービス(FS)業界で広く使われている。
しかし、機械学習の取り組みは、これらのデータの時間的豊かさを説明できないことが多い。
論文 参考訳(メタデータ) (2020-09-11T19:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。