論文の概要: Towards Human-Guided, Data-Centric LLM Co-Pilots
- arxiv url: http://arxiv.org/abs/2501.10321v2
- Date: Fri, 24 Jan 2025 16:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:52:09.816059
- Title: Towards Human-Guided, Data-Centric LLM Co-Pilots
- Title(参考訳): ヒューマンガイド型・データ中心型LCMコパイロットを目指して
- Authors: Evgeny Saveliev, Jiashuo Liu, Nabeel Seedat, Anders Boyd, Mihaela van der Schaar,
- Abstract要約: CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。
高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
- 参考スコア(独自算出の注目度): 53.35493881390917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) has the potential to revolutionize various domains, but its adoption is often hindered by the disconnect between the needs of domain experts and translating these needs into robust and valid ML tools. Despite recent advances in LLM-based co-pilots to democratize ML for non-technical domain experts, these systems remain predominantly focused on model-centric aspects while overlooking critical data-centric challenges. This limitation is problematic in complex real-world settings where raw data often contains complex issues, such as missing values, label noise, and domain-specific nuances requiring tailored handling. To address this we introduce CliMB-DC, a human-guided, data-centric framework for LLM co-pilots that combines advanced data-centric tools with LLM-driven reasoning to enable robust, context-aware data processing. At its core, CliMB-DC introduces a novel, multi-agent reasoning system that combines a strategic coordinator for dynamic planning and adaptation with a specialized worker agent for precise execution. Domain expertise is then systematically incorporated to guide the reasoning process using a human-in-the-loop approach. To guide development, we formalize a taxonomy of key data-centric challenges that co-pilots must address. Thereafter, to address the dimensions of the taxonomy, we integrate state-of-the-art data-centric tools into an extensible, open-source architecture, facilitating the addition of new tools from the research community. Empirically, using real-world healthcare datasets we demonstrate CliMB-DC's ability to transform uncurated datasets into ML-ready formats, significantly outperforming existing co-pilot baselines for handling data-centric challenges. CliMB-DC promises to empower domain experts from diverse domains -- healthcare, finance, social sciences and more -- to actively participate in driving real-world impact using ML.
- Abstract(参考訳): 機械学習(ML)は、さまざまなドメインに革命をもたらす可能性があるが、その採用は、ドメインの専門家のニーズとそれらのニーズを堅牢で有効なMLツールに変換することで、しばしば妨げられる。
LLMベースの非技術的ドメインエキスパートのためにMLを民主化する共同パイロットの最近の進歩にもかかわらず、これらのシステムは、重要なデータ中心の課題を乗り越えながら、モデル中心の側面に重点を置いている。
この制限は、生データが欠落値やラベルノイズ、適切なハンドリングを必要とするドメイン固有のニュアンスといった複雑な問題を含む、複雑な実世界の環境において問題となる。
CliMB-DCは、高度なデータ中心のツールとLLM駆動の推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCは、動的計画と適応のための戦略的コーディネータと、厳密な実行のための特殊作業員エージェントを組み合わせた、新しいマルチエージェント推論システムを導入している。
ドメインの専門知識は、ヒューマン・イン・ザ・ループのアプローチを使って推論プロセスを導くために体系的に組み込まれます。
開発をガイドするために、我々は共同パイロットが対処しなければならない重要なデータ中心の課題の分類を定式化する。
その後、分類の次元に対処するため、最先端のデータ中心のツールを拡張可能なオープンソースアーキテクチャに統合し、研究コミュニティからの新たなツールの追加を容易にする。
実世界の医療データセットを使用して、CliMB-DCが未処理のデータセットをML対応のフォーマットに変換する能力を示します。
CliMB-DCは、さまざまなドメイン(医療、金融、社会科学など)からドメインエキスパートに、MLを使用した現実的なインパクトの推進に積極的に参加させることを約束している。
関連論文リスト
- TAMO:Fine-Grained Root Cause Analysis via Tool-Assisted LLM Agent with Multi-Modality Observation Data [33.5606443790794]
大規模言語モデル(LLM)は、コンテキスト推論とドメイン知識の統合においてブレークスルーをもたらした。
細粒度根本原因解析のための多モード観測データ,すなわちTAMOを用いたツール支援LLMエージェントを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:50:48Z) - From Reviews to Dialogues: Active Synthesis for Zero-Shot LLM-based Conversational Recommender System [49.57258257916805]
大きな言語モデル(LLM)は強力なゼロショットレコメンデーション機能を示している。
現実的なアプリケーションは、スケーラビリティ、解釈可能性、データプライバシの制約により、より小さく、内部的に管理された推奨モデルを好むことが多い。
能動学習技術によって導かれるブラックボックスLSMを利用して,会話学習データを合成する能動データ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T23:05:47Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Building Multi-Agent Copilot towards Autonomous Agricultural Data Management and Analysis [2.763670421921841]
我々はADMA Copilotと呼ばれる概念実証マルチエージェントシステムを構築し,ユーザの意図を理解する。
ADMA Copilotは、LSMベースのコントローラ、入力フォーマッター、出力フォーマッターの3つのエージェントが協調して、自動的にタスクを実行する。
論文 参考訳(メタデータ) (2024-10-31T20:15:14Z) - LAMBDA: A Large Model Based Data Agent [7.240586338370509]
本稿では,LArge Model Based Data Agent (LAMBDA)を紹介する。
LAMBDAは、複雑なデータ駆動アプリケーションにおけるデータ分析の課題に対処するように設計されている。
それは、人間と人工知能をシームレスに統合することで、データ分析パラダイムを強化する可能性がある。
論文 参考訳(メタデータ) (2024-07-24T06:26:36Z) - DeepFMEA -- A Scalable Framework Harmonizing Process Expertise and Data-Driven PHM [0.0]
ほとんどの産業環境では、データは量的に制限され、その品質は矛盾することがある。
このギャップを埋めるために、成功する工業化PHMツールは、以前のドメイン専門知識の導入に依存している。
DeepFMEAは、あらゆる技術的システムを分析するための構造化アプローチにおいて、FMEA(Failure Mode and Effects Analysis)からインスピレーションを得ている。
論文 参考訳(メタデータ) (2024-05-13T09:41:34Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Integration of Domain Expert-Centric Ontology Design into the CRISP-DM for Cyber-Physical Production Systems [45.05372822216111]
機械学習(ML)とデータマイニング(DM)の手法は、収集されたデータから複雑で隠れたパターンを抽出する上で有望であることが証明されている。
しかし、このようなデータ駆動プロジェクトは、通常、CRISPDM(Cross-Industry Standard Process for Data Mining)で実行され、データの理解と準備に要する時間の不均等さのために失敗することが多い。
このコントリビューションは、データサイエンティストがCPPSの課題に対してより迅速かつ確実に洞察を得ることができるように、統合されたアプローチを提供することを目的としている。
論文 参考訳(メタデータ) (2023-07-21T15:04:00Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - ChatGPT as your Personal Data Scientist [0.9689893038619583]
本稿では,ChatGPTを用いた対話型データサイエンスフレームワークについて紹介する。
データビジュアライゼーション、タスクの定式化、予測エンジニアリング、結果概要と勧告の4つのダイアログ状態を中心に、私たちのモデルが中心になっています。
要約して,会話データ科学の新たな概念が実現可能であることを証明するとともに,複雑なタスクを解く上でLLMが有効であることを示すエンド・ツー・エンド・エンド・システムを開発した。
論文 参考訳(メタデータ) (2023-05-23T04:00:16Z) - Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文 参考訳(メタデータ) (2023-04-27T21:08:05Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z) - DC-Check: A Data-Centric AI checklist to guide the development of
reliable machine learning systems [81.21462458089142]
データ中心のAIは、信頼できるエンドツーエンドパイプラインを可能にする統一パラダイムとして登場しています。
データ中心の考慮事項を抽出する実行可能なチェックリストスタイルのフレームワークであるDC-Checkを提案する。
この開発におけるデータ中心のレンズは、システム開発に先立って思考力と透明性を促進することを目的としている。
論文 参考訳(メタデータ) (2022-11-09T17:32:09Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。