論文の概要: AssistedDS: Benchmarking How External Domain Knowledge Assists LLMs in Automated Data Science
- arxiv url: http://arxiv.org/abs/2506.13992v1
- Date: Sun, 25 May 2025 05:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.654187
- Title: AssistedDS: Benchmarking How External Domain Knowledge Assists LLMs in Automated Data Science
- Title(参考訳): AssistedDS: 自動データサイエンスにおける外部ドメイン知識アシストLDMのベンチマーク
- Authors: An Luo, Xun Xian, Jin Du, Fangqiao Tian, Ganghua Wang, Ming Zhong, Shengchun Zhao, Xuan Bi, Zirui Liu, Jiawei Zhou, Jayanth Srinivasa, Ashish Kundu, Charles Fleming, Mingyi Hong, Jie Ding,
- Abstract要約: AssistedDSは、大規模言語モデルがドメイン知識をどのように扱うかを評価するために設計されたベンチマークである。
我々は、最先端のLLMを、有害なドメイン知識を識別し、有効に適用する能力に基づいて評価する。
我々の結果は、専門家の知識を批判的に評価し活用する現在のモデルの能力に、かなりのギャップがあることを示します。
- 参考スコア(独自算出の注目度): 44.18533574465929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have advanced the automation of data science workflows. Yet it remains unclear whether they can critically leverage external domain knowledge as human data scientists do in practice. To answer this question, we introduce AssistedDS (Assisted Data Science), a benchmark designed to systematically evaluate how LLMs handle domain knowledge in tabular prediction tasks. AssistedDS features both synthetic datasets with explicitly known generative mechanisms and real-world Kaggle competitions, each accompanied by curated bundles of helpful and adversarial documents. These documents provide domain-specific insights into data cleaning, feature engineering, and model selection. We assess state-of-the-art LLMs on their ability to discern and apply beneficial versus harmful domain knowledge, evaluating submission validity, information recall, and predictive performance. Our results demonstrate three key findings: (1) LLMs frequently exhibit an uncritical adoption of provided information, significantly impairing their predictive performance when adversarial content is introduced, (2) helpful guidance is often insufficient to counteract the negative influence of adversarial information, and (3) in Kaggle datasets, LLMs often make errors in handling time-series data, applying consistent feature engineering across different folds, and interpreting categorical variables correctly. These findings highlight a substantial gap in current models' ability to critically evaluate and leverage expert knowledge, underscoring an essential research direction for developing more robust, knowledge-aware automated data science systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、データサイエンスワークフローの自動化を進歩させた。
しかし、人間のデータ科学者が実際に行っているように、外部のドメイン知識を批判的に活用できるかどうかは不明だ。
AssistedDS(Assisted Data Science)は,LLMが表型予測タスクにおいてドメイン知識をどのように扱うかを体系的に評価するベンチマークである。
AssistedDSは、明示的に知られた生成機構を持つ合成データセットと、現実のKaggleコンペティションの両方を備えており、それぞれに有用な文書と敵対的な文書のキュレートされたバンドルが付属している。
これらのドキュメントは、データのクリーニング、機能エンジニアリング、モデル選択に関するドメイン固有の洞察を提供する。
現状のLCMを、有害なドメイン知識に対して有益であることを識別し、適用する能力に基づいて評価し、提案の有効性、情報リコール、予測性能を評価した。
その結果, 1) LLMは, 提供された情報の非クリティカルな採用を頻繁に示し, 敵対的コンテンツ導入時の予測性能を著しく損なうこと, (2) 敵対的情報のネガティブな影響に対処するには有効なガイダンスが不十分であること, (3) カグルデータセットでは, 時系列データ処理においてエラーが発生すること, 異なるフォールドに一貫した特徴工学を適用すること, およびカテゴリー変数を正しく解釈すること, の3つの重要な結果が得られた。
これらの発見は、専門家の知識を批判的に評価し活用する現在のモデルの能力のかなりのギャップを浮き彫りにしており、より堅牢で知識に敏感な自動データサイエンスシステムを開発するための重要な研究の方向性を浮き彫りにしている。
関連論文リスト
- Addressing Bias in LLMs: Strategies and Application to Fair AI-based Recruitment [49.81946749379338]
この研究は、トランスフォーマーベースのシステムの能力を分析して、データに存在する人口統計バイアスを学習する。
最終ツールにおける偏りを緩和する手段として,学習パイプラインからの性別情報を削減するためのプライバシー向上フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T15:29:43Z) - AutoMind: Adaptive Knowledgeable Agent for Automated Data Science [39.16008227556205]
LLM(Large Language Model)エージェントは、現実世界のデータサイエンス問題に対処する大きな可能性を示している。
既存のフレームワークは、厳格で、事前定義された、柔軟性のないコーディング戦略に依存している。
適応的で知識のあるLLMエージェントフレームワークであるAutoMindを紹介する。
論文 参考訳(メタデータ) (2025-06-12T17:59:32Z) - Resolving Knowledge Conflicts in Domain-specific Data Selection: A Case Study on Medical Instruction-tuning [83.99974309930072]
ドメイン固有の命令チューニングは、大規模言語モデルの性能向上のためのデファクトスタンダードとなっている。
LLMの実際のニーズを満たすドメイン固有の命令調整データを選択するための知識対応データ選択フレームワークを提案する。
大きな知識の衝突でデータをフィルタリングし、高品質で多様なデータをサンプリングすることで、KDSはLLMの能力を効果的に刺激し、ドメイン固有のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2025-05-28T04:18:24Z) - Learning Beyond the Surface: How Far Can Continual Pre-Training with LoRA Enhance LLMs' Domain-Specific Insight Learning? [4.390998479503661]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
しかし、ドメイン固有のデータセットからより深い洞察を抽出し、内部化する能力は、まだ探索されていない。
本研究は, インサイトラーニングにおけるLCMの能力を高めるために, 連続的事前学習がいかに有効かを検討する。
論文 参考訳(メタデータ) (2025-01-29T18:40:32Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。
我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-08-29T10:00:57Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。