Fugu-MT 論文翻訳(概要): Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow

論文の概要: Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow

arxiv url: http://arxiv.org/abs/2306.07209v1
Date: Mon, 12 Jun 2023 16:12:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 13:52:52.324067
Title: Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow
Title（参考訳）: Data-Copilot: 自律ワークフローを備えた数十億のデータと人間
Authors: Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang
Abstract要約: 大規模言語モデル(LLM)は意味理解と推論において有望な能力を示した。我々は,一方の端にある多数のデータソースを接続し,他方の端にある多様な人的要求に対応するLLMベースのシステムであるData-Copilotを提案する。 Data-Copilotは、生データをユーザーの意図に最も合う視覚化結果に自律的に変換する。
参考スコア（独自算出の注目度）: 44.703964214103856
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Various industries such as finance, meteorology, and energy generate vast amounts of heterogeneous data every day. There is a natural demand for humans to manage, process, and display data efficiently. However, it necessitates labor-intensive efforts and a high level of expertise for these data-related tasks. Considering that large language models (LLMs) have showcased promising capabilities in semantic understanding and reasoning, we advocate that the deployment of LLMs could autonomously manage and process massive amounts of data while displaying and interacting in a human-friendly manner. Based on this belief, we propose Data-Copilot, an LLM-based system that connects numerous data sources on one end and caters to diverse human demands on the other end. Acting like an experienced expert, Data-Copilot autonomously transforms raw data into visualization results that best match the user's intent. Specifically, Data-Copilot autonomously designs versatile interfaces (tools) for data management, processing, prediction, and visualization. In real-time response, it automatically deploys a concise workflow by invoking corresponding interfaces step by step for the user's request. The interface design and deployment processes are fully controlled by Data-Copilot itself, without human assistance. Besides, we create a Data-Copilot demo that links abundant data from different domains (stock, fund, company, economics, and live news) and accurately respond to diverse requests, serving as a reliable AI assistant.
Abstract（参考訳）: 金融、気象学、エネルギーといった様々な産業が毎日大量の異種データを生み出している。人間が効率的にデータを管理、処理、表示することが自然な要求である。しかしそれは、労働集約的な努力と、これらのデータ関連タスクの高度な専門知識を必要とする。大規模言語モデル(LLM)が意味理解と推論において有望な能力を誇示していることを考えると,LLMの展開は,人間に親しみやすい方法で表示・相互作用しながら,大量のデータを自律的に管理・処理できると主張している。この信念に基づき,多種多様なデータソースを一方に接続し,他方の人間の要求に応える,llmベースのシステムであるdata-copilotを提案する。経験豊富な専門家のように,Data-Copilotは,生データを視覚化結果に自動変換することで,ユーザの意図に最もマッチする。具体的には、Data-Copilotはデータ管理、処理、予測、視覚化のための汎用インターフェース(ツール)を自律的に設計する。リアルタイム応答では、ユーザの要求に対してステップバイステップで対応するインターフェースを呼び出すことで、簡潔なワークフローを自動的に展開する。インターフェース設計とデプロイメントプロセスは、人間の支援なしに、データコパイロット自身によって完全に制御されます。さらに、さまざまなドメイン(ストック、ファンド、企業、エコノミクス、ライブニュース)の豊富なデータをリンクし、信頼できるaiアシスタントとして、さまざまなリクエストに正確に応答するデータコパイロットのデモを作成します。

関連論文リスト

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents [85.02904078131682]
本稿では,エージェントデータセット間の"インターリングア"として機能する軽量表現言語であるエージェントデータプロトコル(ADP)を紹介する。 ADPはAPI/ツールの使用、ブラウジング、コーディング、ソフトウェアエンジニアリング、一般的なエージェントなど、さまざまなタスクを捉えるのに十分な表現力を持っている。すべてのコードとデータが公開され、ADPが標準化され、スケーラブルで再現可能なエージェントトレーニングの障壁を低くすることを期待している。
論文参考訳（メタデータ） (2025-10-28T17:53:13Z)
CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文参考訳（メタデータ） (2025-10-03T17:30:16Z)
Towards an Introspective Dynamic Model of Globally Distributed Computing Infrastructures [27.473508984130728]
大規模な科学的コラボレーションはペタバイト単位のデータを生成し、ボリュームはすぐにエクタバイトに達すると期待されている。これらの計算とストレージの要求を管理するために、中央集権的なワークフローとデータ管理システムが実装されている。より効果的あるいはAI駆動のソリューションを採用する上で重要な障害は、迅速で信頼性の高いイントロスペクティブ・ダイナミック・モデルがないことである。
論文参考訳（メタデータ） (2025-06-24T12:42:36Z)
AutoData: A Multi-Agent System for Open Web Data Collection [37.832257245199365]
AutoDataは、人間の介入を最小限にする必要のある、自動Webデータ収集のための新しいマルチエージェントシステムである。 Instruct2DSは、学術、金融、スポーツの3つの領域にわたるWebソースからのライブデータ収集をサポートする新しいベンチマークデータセットである。
論文参考訳（メタデータ） (2025-05-21T04:32:35Z)
DatawiseAgent: A Notebook-Centric LLM Agent Framework for Automated Data Science [4.1431677219677185]
DatawiseAgentはノートブック中心のエージェントフレームワークで、ユーザ、エージェント、計算環境間のインタラクションを統合する。 DSFライクな計画、インクリメンタルな実行、自己老化、ポストフィルタの4つのステージを編成する。一貫して、複数のモデル設定で最先端のメソッドを上回るか、マッチする。
論文参考訳（メタデータ） (2025-03-10T08:32:33Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for Foundation Models [64.28420991770382]
我々は,100以上の演算子が支援する実りあるデータ処理機能を提供する新しいシステムであるData-Juicer 2.0を提案する。このシステムは、さまざまな研究努力、実用的なアプリケーション、Alibaba Cloud PAIのような現実世界の製品で、公開され、積極的に維持され、広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
Data Interpreter: An LLM Agent For Data Science [43.13678782387546]
LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
論文参考訳（メタデータ） (2024-02-28T19:49:55Z)
Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文参考訳（メタデータ） (2023-10-31T01:08:34Z)
In-depth Analysis On Parallel Processing Patterns for High-Performance Dataframes [0.0]
本稿では,分散データフレーム演算子の並列処理パターンと参照ランタイム実装であるCylonについて述べる。本稿では,これらのパターンを評価するためのコストモデルを導入することで,初期概念を拡張している。 ORNL Summit スーパーコンピュータにおける Cylon の性能評価を行った。
論文参考訳（メタデータ） (2023-07-03T23:11:03Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文参考訳（メタデータ） (2023-05-19T10:11:21Z)
Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文参考訳（メタデータ） (2022-03-07T18:13:59Z)
Machine Learning for Temporal Data in Finance: Challenges and Opportunities [0.0]
一時データは金融サービス(FS)業界で広く使われている。しかし、機械学習の取り組みは、これらのデータの時間的豊かさを説明できないことが多い。
論文参考訳（メタデータ） (2020-09-11T19:39:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。