論文の概要: Dataforge: A Data Agent Platform for Autonomous Data Engineering
- arxiv url: http://arxiv.org/abs/2511.06185v1
- Date: Sun, 09 Nov 2025 01:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.798682
- Title: Dataforge: A Data Agent Platform for Autonomous Data Engineering
- Title(参考訳): Dataforge: 自律データエンジニアリングのためのデータエージェントプラットフォーム
- Authors: Xinyuan Wang, Yanjie Fu,
- Abstract要約: Data Agentは、表データに特化した完全に自律的なシステムである。
データクリーニング、階層的ルーティング、デュアルフィードバックループによる機能レベルの最適化を自動的に実行する。
自動、安全、非専門家フレンドリーという3つの基本原則を具現化し、人間の監督なしにエンドツーエンドの信頼性を保証する。
- 参考スコア(独自算出の注目度): 22.691284342164334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing demand for AI applications in fields such as materials discovery, molecular modeling, and climate science has made data preparation an important but labor-intensive step. Raw data from diverse sources must be cleaned, normalized, and transformed to become AI-ready, while effective feature transformation and selection are essential for efficient training and inference. To address the challenges of scalability and expertise dependence, we present Data Agent, a fully autonomous system specialized for tabular data. Leveraging large language model (LLM) reasoning and grounded validation, Data Agent automatically performs data cleaning, hierarchical routing, and feature-level optimization through dual feedback loops. It embodies three core principles: automatic, safe, and non-expert friendly, which ensure end-to-end reliability without human supervision. This demo showcases the first practical realization of an autonomous Data Agent, illustrating how raw data can be transformed "From Data to Better Data."
- Abstract(参考訳): 材料発見、分子モデリング、気候科学といった分野におけるAI応用の需要が高まっているため、データ準備は重要だが労働集約的なステップとなっている。
多様なソースからの生データをクリーン化し、正規化し、AI対応に変換する必要がある一方で、効果的な特徴変換と選択は、効率的なトレーニングと推論に不可欠である。
スケーラビリティと専門性依存の課題に対処するために,表データに特化した完全自律型システムであるData Agentを提案する。
大規模言語モデル(LLM)の推論と根拠付きバリデーションを活用して、Data Agentはデータクリーニング、階層的ルーティング、デュアルフィードバックループによる機能レベルの最適化を自動的に実行する。
自動、安全、非専門家フレンドリーという3つの基本原則を具現化し、人間の監督なしにエンドツーエンドの信頼性を保証する。
このデモでは、"From Data to Better Data"が生データをどのように変換できるかを例示して、自律データエージェントを初めて現実的に実現した。
関連論文リスト
- What's the next frontier for Data-centric AI? Data Savvy Agents [71.76058707995398]
我々は、エージェントシステムの設計において、データに精通する能力が最優先すべきであると主張している。
本稿では,このビジョンを実現するための4つの重要な機能を提案する。プロアクティブデータ取得,ソフシフィケートデータ処理,インタラクティブテストデータ合成,連続的適応。
論文 参考訳(メタデータ) (2025-11-02T17:09:29Z) - A Survey of Data Agents: Emerging Paradigm or Overstated Hype? [66.1526688475023]
現在「データエージェント」は用語的曖昧さと不整合性に悩まされている。
この調査では、データエージェントのための最初の体系的な階層型分類を紹介した。
プロアクティブな生成データエージェントの出現を想定する、先見的なロードマップで締めくくります。
論文 参考訳(メタデータ) (2025-10-27T17:54:07Z) - Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - Autonomous Data Agents: A New Opportunity for Smart Data [50.02229219403014]
DataAgentsは、自律的なデータから知識システムへのパラダイムシフトを表している、とReportは主張する。
DataAgentsは、複雑で非構造化されたデータをコヒーレントで行動可能な知識に変換する。
エージェントAIとデータ・トゥ・ナレッジシステムの収束が重要なトレンドとなっている理由を最初に検討する。
論文 参考訳(メタデータ) (2025-09-23T06:46:41Z) - Meta-Learning and Synthetic Data for Automated Pretraining and Finetuning [2.657867981416885]
機械学習(ML)における事前訓練モデルの増加は、実践者にとって大きな課題となる。
モデルがスケールするにつれて、実世界のデータへの依存度の増加は、トレーニングのボトルネックとなり、より効率的にデータを活用する必要がある。
この論文はメタラーニングを採用し、機械学習をディープラーニング領域に拡張する。
論文 参考訳(メタデータ) (2025-06-11T12:48:45Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.28944613907541]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - From Data to Actions in Intelligent Transportation Systems: a
Prescription of Functional Requirements for Model Actionability [10.27718355111707]
この研究は、多種多様なソースから得られたデータが、その資産やシステム、プロセスの効率的な運用のために、データ駆動モデルを学び、適応するためにどのように使用できるかを説明することを目的としている。
ITSのデータモデリングパイプラインでは、データ融合、適応学習、モデル評価という3つの複合ステージに対して、特性、エンジニアリング要件、本質的な課題を定義します。
論文 参考訳(メタデータ) (2020-02-06T12:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。