Fugu-MT 論文翻訳(概要): Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow

論文の概要: Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow

arxiv url: http://arxiv.org/abs/2306.07209v4
Date: Tue, 7 May 2024 02:53:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 20:33:08.018862
Title: Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow
Title（参考訳）: Data-Copilot: 自律ワークフローで数十億のデータと人間をブリッジする
Authors: Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang,
Abstract要約: 大規模言語モデル(LLM)は意味理解と推論において有望な能力を示す。我々は,一方の端にある多数のデータソースを接続し,他方の端にある多様な人的要求に対応するLLMベースのシステムであるData-Copilotを提案する。我々は、株式、ファンド、ニュースなどの大規模な中国の財務データを用いて、Data-Copilot-1.0をリリースします。
参考スコア（独自算出の注目度）: 49.724842920942024
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Various industries such as finance, meteorology, and energy produce vast amounts of heterogeneous data every day. There is a natural demand for humans to manage, process, and display data efficiently. However, it necessitates labor-intensive efforts and a high level of expertise for these data-related tasks. Considering large language models (LLMs) showcase promising capabilities in semantic understanding and reasoning, we advocate that the deployment of LLMs could autonomously manage and process massive amounts of data while interacting and displaying in a human-friendly manner. Based on this, we propose Data-Copilot, an LLM-based system that connects numerous data sources on one end and caters to diverse human demands on the other end. Acting as an experienced expert, Data-Copilot autonomously transforms raw data into multi-form output that best matches the user's intent. Specifically, it first designs multiple universal interfaces to satisfy diverse data-related requests, like querying, analysis, prediction, and visualization. In real-time response, it automatically deploys a concise workflow by invoking corresponding interfaces. The whole process is fully controlled by Data-Copilot, without human assistance. We release Data-Copilot-1.0 using massive Chinese financial data, e.g., stocks, funds, and news. Experiments indicate it achieves reliable performance with lower token consumption, showing promising application prospects.
Abstract（参考訳）: 金融、気象学、エネルギーといった様々な産業が毎日大量の異種データを生産している。人間がデータを効率的に管理、処理、表示することに対する自然な要求がある。しかし、労働集約的な努力と、これらのデータ関連のタスクに高いレベルの専門知識を必要とする。大規模言語モデル(LLM)が意味理解と推論において有望な能力を示すことを考慮し、LLMの展開は、人間に優しい方法で対話し、表示しながら、大量のデータを自律的に管理し、処理することができることを提唱する。そこで本研究では,一方の端に多数のデータソースを接続し,他方の端に多様な人的要求に対応するLLMベースのシステムであるData-Copilotを提案する。経験豊富な専門家として、Data-Copilotは、生データをユーザの意図に最も合うマルチフォーム出力に自律的に変換する。具体的には、クエリ、分析、予測、視覚化など、さまざまなデータ関連の要求を満たすために、まず複数のユニバーサルインターフェースを設計する。リアルタイム応答では、対応するインターフェイスを呼び出すことで、簡潔なワークフローを自動的に展開する。プロセス全体がData-Copilotによって完全に制御され、人間の助けがない。私たちは、大規模な中国の財務データ、例えば株式、ファンド、ニュースを使ってData-Copilot-1.0をリリースします。実験の結果、トークン使用率を低くして信頼性の高いパフォーマンスを実現し、将来性のあるアプリケーションの見通しを示している。

関連論文リスト

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents [85.02904078131682]
本稿では,エージェントデータセット間の"インターリングア"として機能する軽量表現言語であるエージェントデータプロトコル(ADP)を紹介する。 ADPはAPI/ツールの使用、ブラウジング、コーディング、ソフトウェアエンジニアリング、一般的なエージェントなど、さまざまなタスクを捉えるのに十分な表現力を持っている。すべてのコードとデータが公開され、ADPが標準化され、スケーラブルで再現可能なエージェントトレーニングの障壁を低くすることを期待している。
論文参考訳（メタデータ） (2025-10-28T17:53:13Z)
CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文参考訳（メタデータ） (2025-10-03T17:30:16Z)
Towards an Introspective Dynamic Model of Globally Distributed Computing Infrastructures [27.473508984130728]
大規模な科学的コラボレーションはペタバイト単位のデータを生成し、ボリュームはすぐにエクタバイトに達すると期待されている。これらの計算とストレージの要求を管理するために、中央集権的なワークフローとデータ管理システムが実装されている。より効果的あるいはAI駆動のソリューションを採用する上で重要な障害は、迅速で信頼性の高いイントロスペクティブ・ダイナミック・モデルがないことである。
論文参考訳（メタデータ） (2025-06-24T12:42:36Z)
AutoData: A Multi-Agent System for Open Web Data Collection [37.832257245199365]
AutoDataは、人間の介入を最小限にする必要のある、自動Webデータ収集のための新しいマルチエージェントシステムである。 Instruct2DSは、学術、金融、スポーツの3つの領域にわたるWebソースからのライブデータ収集をサポートする新しいベンチマークデータセットである。
論文参考訳（メタデータ） (2025-05-21T04:32:35Z)
DatawiseAgent: A Notebook-Centric LLM Agent Framework for Automated Data Science [4.1431677219677185]
DatawiseAgentはノートブック中心のエージェントフレームワークで、ユーザ、エージェント、計算環境間のインタラクションを統合する。 DSFライクな計画、インクリメンタルな実行、自己老化、ポストフィルタの4つのステージを編成する。一貫して、複数のモデル設定で最先端のメソッドを上回るか、マッチする。
論文参考訳（メタデータ） (2025-03-10T08:32:33Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for Foundation Models [64.28420991770382]
我々は,100以上の演算子が支援する実りあるデータ処理機能を提供する新しいシステムであるData-Juicer 2.0を提案する。このシステムは、さまざまな研究努力、実用的なアプリケーション、Alibaba Cloud PAIのような現実世界の製品で、公開され、積極的に維持され、広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
Data Interpreter: An LLM Agent For Data Science [43.13678782387546]
LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
論文参考訳（メタデータ） (2024-02-28T19:49:55Z)
Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文参考訳（メタデータ） (2023-10-31T01:08:34Z)
In-depth Analysis On Parallel Processing Patterns for High-Performance Dataframes [0.0]
本稿では,分散データフレーム演算子の並列処理パターンと参照ランタイム実装であるCylonについて述べる。本稿では,これらのパターンを評価するためのコストモデルを導入することで,初期概念を拡張している。 ORNL Summit スーパーコンピュータにおける Cylon の性能評価を行った。
論文参考訳（メタデータ） (2023-07-03T23:11:03Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文参考訳（メタデータ） (2023-05-19T10:11:21Z)
Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文参考訳（メタデータ） (2022-03-07T18:13:59Z)
Machine Learning for Temporal Data in Finance: Challenges and Opportunities [0.0]
一時データは金融サービス(FS)業界で広く使われている。しかし、機械学習の取り組みは、これらのデータの時間的豊かさを説明できないことが多い。
論文参考訳（メタデータ） (2020-09-11T19:39:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。