論文の概要: Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow
- arxiv url: http://arxiv.org/abs/2306.07209v4
- Date: Tue, 7 May 2024 02:53:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 20:33:08.018862
- Title: Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow
- Title(参考訳): Data-Copilot: 自律ワークフローで数十億のデータと人間をブリッジする
- Authors: Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang,
- Abstract要約: 大規模言語モデル(LLM)は意味理解と推論において有望な能力を示す。
我々は,一方の端にある多数のデータソースを接続し,他方の端にある多様な人的要求に対応するLLMベースのシステムであるData-Copilotを提案する。
我々は、株式、ファンド、ニュースなどの大規模な中国の財務データを用いて、Data-Copilot-1.0をリリースします。
- 参考スコア(独自算出の注目度): 49.724842920942024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various industries such as finance, meteorology, and energy produce vast amounts of heterogeneous data every day. There is a natural demand for humans to manage, process, and display data efficiently. However, it necessitates labor-intensive efforts and a high level of expertise for these data-related tasks. Considering large language models (LLMs) showcase promising capabilities in semantic understanding and reasoning, we advocate that the deployment of LLMs could autonomously manage and process massive amounts of data while interacting and displaying in a human-friendly manner. Based on this, we propose Data-Copilot, an LLM-based system that connects numerous data sources on one end and caters to diverse human demands on the other end. Acting as an experienced expert, Data-Copilot autonomously transforms raw data into multi-form output that best matches the user's intent. Specifically, it first designs multiple universal interfaces to satisfy diverse data-related requests, like querying, analysis, prediction, and visualization. In real-time response, it automatically deploys a concise workflow by invoking corresponding interfaces. The whole process is fully controlled by Data-Copilot, without human assistance. We release Data-Copilot-1.0 using massive Chinese financial data, e.g., stocks, funds, and news. Experiments indicate it achieves reliable performance with lower token consumption, showing promising application prospects.
- Abstract(参考訳): 金融、気象学、エネルギーといった様々な産業が毎日大量の異種データを生産している。
人間がデータを効率的に管理、処理、表示することに対する自然な要求がある。
しかし、労働集約的な努力と、これらのデータ関連のタスクに高いレベルの専門知識を必要とする。
大規模言語モデル(LLM)が意味理解と推論において有望な能力を示すことを考慮し、LLMの展開は、人間に優しい方法で対話し、表示しながら、大量のデータを自律的に管理し、処理することができることを提唱する。
そこで本研究では,一方の端に多数のデータソースを接続し,他方の端に多様な人的要求に対応するLLMベースのシステムであるData-Copilotを提案する。
経験豊富な専門家として、Data-Copilotは、生データをユーザの意図に最も合うマルチフォーム出力に自律的に変換する。
具体的には、クエリ、分析、予測、視覚化など、さまざまなデータ関連の要求を満たすために、まず複数のユニバーサルインターフェースを設計する。
リアルタイム応答では、対応するインターフェイスを呼び出すことで、簡潔なワークフローを自動的に展開する。
プロセス全体がData-Copilotによって完全に制御され、人間の助けがない。
私たちは、大規模な中国の財務データ、例えば株式、ファンド、ニュースを使ってData-Copilot-1.0をリリースします。
実験の結果、トークン使用率を低くして信頼性の高いパフォーマンスを実現し、将来性のあるアプリケーションの見通しを示している。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Data Interpreter: An LLM Agent For Data Science [43.13678782387546]
LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。
しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。
本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
論文 参考訳(メタデータ) (2024-02-28T19:49:55Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - In-depth Analysis On Parallel Processing Patterns for High-Performance
Dataframes [0.0]
本稿では,分散データフレーム演算子の並列処理パターンと参照ランタイム実装であるCylonについて述べる。
本稿では,これらのパターンを評価するためのコストモデルを導入することで,初期概念を拡張している。
ORNL Summit スーパーコンピュータにおける Cylon の性能評価を行った。
論文 参考訳(メタデータ) (2023-07-03T23:11:03Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - Machine Learning for Temporal Data in Finance: Challenges and
Opportunities [0.0]
一時データは金融サービス(FS)業界で広く使われている。
しかし、機械学習の取り組みは、これらのデータの時間的豊かさを説明できないことが多い。
論文 参考訳(メタデータ) (2020-09-11T19:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。