論文の概要: Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow
- arxiv url: http://arxiv.org/abs/2306.07209v2
- Date: Sun, 21 Apr 2024 12:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 01:12:24.658599
- Title: Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow
- Title(参考訳): Data-Copilot: 自律ワークフローで数十億のデータと人間をブリッジする
- Authors: Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang,
- Abstract要約: 大規模言語モデル(LLM)は意味理解と推論において有望な能力を示した。
我々は,一方の端にある多数のデータソースを接続し,他方の端にある多様な人的要求に対応するLLMベースのシステムであるData-Copilotを提案する。
Data-Copilotは、生データをユーザーの意図に最も合う視覚化結果に自律的に変換する。
- 参考スコア(独自算出の注目度): 49.724842920942024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various industries such as finance, meteorology, and energy generate vast amounts of heterogeneous data every day. There is a natural demand for humans to manage, process, and display data efficiently. However, it necessitates labor-intensive efforts and a high level of expertise for these data-related tasks. Considering that large language models (LLMs) have showcased promising capabilities in semantic understanding and reasoning, we advocate that the deployment of LLMs could autonomously manage and process massive amounts of data while displaying and interacting in a human-friendly manner. Based on this belief, we propose Data-Copilot, an LLM-based system that connects numerous data sources on one end and caters to diverse human demands on the other end. Acting like an experienced expert, Data-Copilot autonomously transforms raw data into visualization results that best match the user's intent. Specifically, Data-Copilot autonomously designs versatile interfaces (tools) for data management, processing, prediction, and visualization. In real-time response, it automatically deploys a concise workflow by invoking corresponding interfaces step by step for the user's request. The interface design and deployment processes are fully controlled by Data-Copilot itself, without human assistance. Besides, we create a Data-Copilot demo that links abundant data from different domains (stock, fund, company, economics, and live news) and accurately respond to diverse requests, serving as a reliable AI assistant.
- Abstract(参考訳): 金融、気象学、エネルギーといった様々な産業が毎日大量の異種データを生み出している。
人間がデータを効率的に管理、処理、表示することに対する自然な要求がある。
しかし、労働集約的な努力と、これらのデータ関連のタスクに高いレベルの専門知識を必要とする。
大規模言語モデル(LLM)が意味理解と推論において有望な能力を誇示していることを考えると,LLMの展開は,人間に親しみやすい方法で表示・相互作用しながら,大量のデータを自律的に管理・処理することができることを主張する。
この信念に基づいて,一方の端に多数のデータソースを接続し,他方の端に多様な人的要求に対応するLLMベースのシステムであるData-Copilotを提案する。
経験豊富な専門家のように,Data-Copilotは,生データを視覚化結果に自動変換することで,ユーザの意図に最もマッチする。
具体的には、Data-Copilotはデータ管理、処理、予測、視覚化のための汎用インターフェース(ツール)を自律的に設計する。
リアルタイム応答では、ユーザの要求に対してステップバイステップで対応するインターフェースを呼び出すことで、簡潔なワークフローを自動的に展開する。
インターフェースの設計とデプロイメントのプロセスは、Data-Copilot自身で完全に制御され、人間の助けがない。
さらに、さまざまなドメイン(ストック、ファンド、企業、経済学、ライブニュース)の豊富なデータをリンクするData-Copilotデモを作成し、信頼性の高いAIアシスタントとして、さまざまな要求に正確に対応します。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Data Interpreter: An LLM Agent For Data Science [43.13678782387546]
LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。
しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。
本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
論文 参考訳(メタデータ) (2024-02-28T19:49:55Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - In-depth Analysis On Parallel Processing Patterns for High-Performance
Dataframes [0.0]
本稿では,分散データフレーム演算子の並列処理パターンと参照ランタイム実装であるCylonについて述べる。
本稿では,これらのパターンを評価するためのコストモデルを導入することで,初期概念を拡張している。
ORNL Summit スーパーコンピュータにおける Cylon の性能評価を行った。
論文 参考訳(メタデータ) (2023-07-03T23:11:03Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - Machine Learning for Temporal Data in Finance: Challenges and
Opportunities [0.0]
一時データは金融サービス(FS)業界で広く使われている。
しかし、機械学習の取り組みは、これらのデータの時間的豊かさを説明できないことが多い。
論文 参考訳(メタデータ) (2020-09-11T19:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。