論文の概要: Towards Human-Guided, Data-Centric LLM Co-Pilots
- arxiv url: http://arxiv.org/abs/2501.10321v1
- Date: Fri, 17 Jan 2025 17:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:45.535054
- Title: Towards Human-Guided, Data-Centric LLM Co-Pilots
- Title(参考訳): ヒューマンガイド型・データ中心型LCMコパイロットを目指して
- Authors: Evgeny Saveliev, Jiashuo Liu, Nabeel Seedat, Anders Boyd, Mihaela van der Schaar,
- Abstract要約: CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。
高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCが未処理のデータセットをML対応フォーマットに変換する能力を示す。
- 参考スコア(独自算出の注目度): 53.35493881390917
- License:
- Abstract: Machine learning (ML) has the potential to revolutionize healthcare, but its adoption is often hindered by the disconnect between the needs of domain experts and translating these needs into robust and valid ML tools. Despite recent advances in LLM-based co-pilots to democratize ML for non-technical domain experts, these systems remain predominantly focused on model-centric aspects while overlooking critical data-centric challenges. This limitation is problematic in complex real-world settings where raw data often contains complex issues, such as missing values, label noise, and domain-specific nuances requiring tailored handling. To address this we introduce CliMB-DC, a human-guided, data-centric framework for LLM co-pilots that combines advanced data-centric tools with LLM-driven reasoning to enable robust, context-aware data processing. At its core, CliMB-DC introduces a novel, multi-agent reasoning system that combines a strategic coordinator for dynamic planning and adaptation with a specialized worker agent for precise execution. Domain expertise is then systematically incorporated to guide the reasoning process using a human-in-the-loop approach. To guide development, we formalize a taxonomy of key data-centric challenges that co-pilots must address. Thereafter, to address the dimensions of the taxonomy, we integrate state-of-the-art data-centric tools into an extensible, open-source architecture, facilitating the addition of new tools from the research community. Empirically, using real-world healthcare datasets we demonstrate CliMB-DC's ability to transform uncurated datasets into ML-ready formats, significantly outperforming existing co-pilot baselines for handling data-centric challenges. CliMB-DC promises to empower domain experts from diverse domains -- healthcare, finance, social sciences and more -- to actively participate in driving real-world impact using ML.
- Abstract(参考訳): 機械学習(ML)は医療に革命をもたらす可能性があるが、その採用はドメインの専門家のニーズとそれらのニーズを堅牢で有効なMLツールに変換することで妨げられることが多い。
LLMベースの非技術的ドメインエキスパートのためにMLを民主化する共同パイロットの最近の進歩にもかかわらず、これらのシステムは、重要なデータ中心の課題を乗り越えながら、モデル中心の側面に重点を置いている。
この制限は、生データが欠落値やラベルノイズ、適切なハンドリングを必要とするドメイン固有のニュアンスといった複雑な問題を含む、複雑な実世界の環境において問題となる。
CliMB-DCは、高度なデータ中心のツールとLLM駆動の推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCは、動的計画と適応のための戦略的コーディネータと、厳密な実行のための特殊作業員エージェントを組み合わせた、新しいマルチエージェント推論システムを導入している。
ドメインの専門知識は、ヒューマン・イン・ザ・ループのアプローチを使って推論プロセスを導くために体系的に組み込まれます。
開発をガイドするために、我々は共同パイロットが対処しなければならない重要なデータ中心の課題の分類を定式化する。
その後、分類の次元に対処するため、最先端のデータ中心のツールを拡張可能なオープンソースアーキテクチャに統合し、研究コミュニティからの新たなツールの追加を容易にする。
実世界の医療データセットを使用して、CliMB-DCが未処理のデータセットをML対応のフォーマットに変換する能力を示します。
CliMB-DCは、さまざまなドメイン(医療、金融、社会科学など)からドメインエキスパートに、MLを使用した現実的なインパクトの推進に積極的に参加させることを約束している。
関連論文リスト
- Building Multi-Agent Copilot towards Autonomous Agricultural Data Management and Analysis [2.763670421921841]
我々はADMA Copilotと呼ばれる概念実証マルチエージェントシステムを構築し,ユーザの意図を理解する。
ADMA Copilotは、LSMベースのコントローラ、入力フォーマッター、出力フォーマッターの3つのエージェントが協調して、自動的にタスクを実行する。
論文 参考訳(メタデータ) (2024-10-31T20:15:14Z) - DeepFMEA -- A Scalable Framework Harmonizing Process Expertise and Data-Driven PHM [0.0]
ほとんどの産業環境では、データは量的に制限され、その品質は矛盾することがある。
このギャップを埋めるために、成功する工業化PHMツールは、以前のドメイン専門知識の導入に依存している。
DeepFMEAは、あらゆる技術的システムを分析するための構造化アプローチにおいて、FMEA(Failure Mode and Effects Analysis)からインスピレーションを得ている。
論文 参考訳(メタデータ) (2024-05-13T09:41:34Z) - Empowering Federated Learning for Massive Models with NVIDIA FLARE [15.732926323081077]
データを効果的に扱い 活用することが 重要な課題となりました
ほとんどの最先端の機械学習アルゴリズムはデータ中心である。
本稿では,NVIDIA FLAREによって実現されたフェデレーション学習が,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2024-02-12T16:59:05Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - ChatGPT as your Personal Data Scientist [0.9689893038619583]
本稿では,ChatGPTを用いた対話型データサイエンスフレームワークについて紹介する。
データビジュアライゼーション、タスクの定式化、予測エンジニアリング、結果概要と勧告の4つのダイアログ状態を中心に、私たちのモデルが中心になっています。
要約して,会話データ科学の新たな概念が実現可能であることを証明するとともに,複雑なタスクを解く上でLLMが有効であることを示すエンド・ツー・エンド・エンド・システムを開発した。
論文 参考訳(メタデータ) (2023-05-23T04:00:16Z) - Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文 参考訳(メタデータ) (2023-04-27T21:08:05Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z) - DC-Check: A Data-Centric AI checklist to guide the development of
reliable machine learning systems [81.21462458089142]
データ中心のAIは、信頼できるエンドツーエンドパイプラインを可能にする統一パラダイムとして登場しています。
データ中心の考慮事項を抽出する実行可能なチェックリストスタイルのフレームワークであるDC-Checkを提案する。
この開発におけるデータ中心のレンズは、システム開発に先立って思考力と透明性を促進することを目的としている。
論文 参考訳(メタデータ) (2022-11-09T17:32:09Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。