論文の概要: A Survey on Semantics in Automated Data Science
- arxiv url: http://arxiv.org/abs/2205.08018v1
- Date: Mon, 16 May 2022 23:16:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 14:01:08.377168
- Title: A Survey on Semantics in Automated Data Science
- Title(参考訳): 自動データサイエンスにおけるセマンティクスに関する調査
- Authors: Udayan Khurana and Kavitha Srinivas and Horst Samulowitz
- Abstract要約: データサイエンティストは常識推論とドメイン知識を活用して、予測モデルを構築するためのデータを理解し、強化する。
データサイエンス自動化のための新しいツールと組み合わせて、データに対する基本的なセマンティック推論を活用することが、一貫性と説明可能なデータ拡張と変換にどのように役立つかについて議論する。
- 参考スコア(独自算出の注目度): 14.331183226753547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data Scientists leverage common sense reasoning and domain knowledge to
understand and enrich data for building predictive models. In recent years, we
have witnessed a surge in tools and techniques for {\em automated machine
learning}. While data scientists can employ various such tools to help with
model building, many other aspects such as {\em feature engineering} that
require semantic understanding of concepts, remain manual to a large extent. In
this paper we discuss important shortcomings of current automated data science
solutions and machine learning. We discuss how leveraging basic semantic
reasoning on data in combination with novel tools for data science automation
can help with consistent and explainable data augmentation and transformation.
Moreover, semantics can assist data scientists in a new manner by helping with
challenges related to {\em trust}, {\em bias}, and {\em explainability}.
- Abstract(参考訳): データサイエンティストは常識推論とドメイン知識を活用して、予測モデルを構築するためのデータを理解し、強化する。
近年、自動機械学習のためのツールや技術が急増しているのを目撃している。
データサイエンティストはモデル構築を助けるために様々なツールを使うことができるが、概念の意味的理解を必要とする"em feature engineering"のような他の多くの側面は手作業のままである。
本稿では,現在の自動データサイエンスソリューションと機械学習の重要な欠点について述べる。
データサイエンス自動化のための新しいツールと組み合わせて、データに対する基本的なセマンティック推論を活用することで、一貫性と説明可能なデータ拡張と変換を実現する方法について論じる。
さらに、セマンティクスは、データサイエンティストが「em信頼」、「emバイアス」、「em説明可能性」に関連する課題に対処することで、新しい方法で支援することができる。
関連論文リスト
- Physical Consistency Bridges Heterogeneous Data in Molecular Multi-Task Learning [79.75718786477638]
我々は、それらを接続する物理法則が存在する分子的タスクの専門性を生かし、整合性トレーニングアプローチを設計する。
より正確なエネルギーデータにより、構造予測の精度が向上することを示した。
また、整合性トレーニングは、構造予測を改善するために、力と非平衡構造データを直接活用できることがわかった。
論文 参考訳(メタデータ) (2024-10-14T03:11:33Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Semantically Aligned Question and Code Generation for Automated Insight Generation [20.795381712667034]
我々は、大規模言語モデルのセマンティック知識を活用して、データに対するターゲット的で洞察に富んだ質問を生成する。
埋め込みは意味的に不整合な質問とコードのペアをフィルタリングするのに有効であることを示す。
論文 参考訳(メタデータ) (2024-03-21T10:01:05Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Interpretable Machine Learning for Discovery: Statistical Challenges \&
Opportunities [1.2891210250935146]
我々は、解釈可能な機械学習の分野について議論し、レビューする。
解釈可能な機械学習を用いて行うことができる発見の種類について概説する。
我々は、これらの発見をデータ駆動方式でどのように検証するかという大きな課題に焦点をあてる。
論文 参考訳(メタデータ) (2023-08-02T23:57:31Z) - A Vision for Semantically Enriched Data Science [19.604667287258724]
ドメイン知識の活用やデータセマンティクスといった重要な分野は、ほとんど自動化されていない分野です。
データサイエンスの自動化のための新しいツールと組み合わせて、データに対する“セマンティック”な理解と推論を活用することが、一貫性と説明可能なデータ拡張と変換にどのように役立つか、私たちは考えています。
論文 参考訳(メタデータ) (2023-03-02T16:03:12Z) - Constructing Effective Machine Learning Models for the Sciences: A
Multidisciplinary Perspective [77.53142165205281]
線形回帰モデルに変数間の変換や相互作用を手動で追加することで、非線形解が必ずしも改善されないことを示す。
データ駆動モデルを構築する前にこれを認識する方法や、そのような分析が本質的に解釈可能な回帰モデルへの移行にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2022-11-21T17:48:44Z) - Automating Data Science: Prospects and Challenges [30.4496620661692]
データサイエンスにおける自動化は、データサイエンティストの仕事の促進と変換を目的としている。
データサイエンスの重要な部分は、特にモデリング段階で既に自動化されています。
その他の側面は自動化が難しく、技術的課題だけでなく、オープンでコンテキストに依存したタスクは人間のインタラクションを必要とするためである。
論文 参考訳(メタデータ) (2021-05-12T14:34:35Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z) - Principles and Practice of Explainable Machine Learning [12.47276164048813]
本稿では、特に機械学習(ML)とパターン認識モデルに関するデータ駆動手法に焦点を当てる。
メソッドの頻度と複雑さが増すにつれて、少なくともビジネスの利害関係者はモデルの欠点に懸念を抱いている。
我々は、業界実践者が説明可能な機械学習の分野をよりよく理解するための調査を実施した。
論文 参考訳(メタデータ) (2020-09-18T14:50:27Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。