論文の概要: A Vision for Semantically Enriched Data Science
- arxiv url: http://arxiv.org/abs/2303.01378v1
- Date: Thu, 2 Mar 2023 16:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 13:34:26.165764
- Title: A Vision for Semantically Enriched Data Science
- Title(参考訳): セマンティックに富んだデータサイエンスのビジョン
- Authors: Udayan Khurana, Kavitha Srinivas, Sainyam Galhotra, Horst Samulowitz
- Abstract要約: ドメイン知識の活用やデータセマンティクスといった重要な分野は、ほとんど自動化されていない分野です。
データサイエンスの自動化のための新しいツールと組み合わせて、データに対する“セマンティック”な理解と推論を活用することが、一貫性と説明可能なデータ拡張と変換にどのように役立つか、私たちは考えています。
- 参考スコア(独自算出の注目度): 19.604667287258724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent efforts in automation of machine learning or data science has
achieved success in various tasks such as hyper-parameter optimization or model
selection. However, key areas such as utilizing domain knowledge and data
semantics are areas where we have seen little automation. Data Scientists have
long leveraged common sense reasoning and domain knowledge to understand and
enrich data for building predictive models. In this paper we discuss important
shortcomings of current data science and machine learning solutions. We then
envision how leveraging "semantic" understanding and reasoning on data in
combination with novel tools for data science automation can help with
consistent and explainable data augmentation and transformation. Additionally,
we discuss how semantics can assist data scientists in a new manner by helping
with challenges related to trust, bias, and explainability in machine learning.
Semantic annotation can also help better explore and organize large data
sources.
- Abstract(参考訳): 最近の機械学習やデータサイエンスの自動化の取り組みは、ハイパーパラメータ最適化やモデル選択など、さまざまなタスクで成功を収めている。
しかし、ドメイン知識やデータセマンティクスを利用するといった重要な領域は、ほとんど自動化されていない分野です。
データサイエンティストは、予測モデルを構築するためのデータを理解し、強化するために、常識推論とドメイン知識を長い間活用してきた。
本稿では,現在のデータサイエンスと機械学習ソリューションの重要な欠点について述べる。
データの理解と推論をデータサイエンスの自動化のための新しいツールと組み合わせることで、一貫性と説明可能なデータの拡張と変換にどのように役立つかを想像する。
さらに,機械学習における信頼やバイアス,説明可能性といった課題に対処することで,意味論がデータサイエンティストを新たな方法で支援する方法について論じる。
セマンティックアノテーションは、巨大なデータソースの探索と整理に役立つ。
関連論文リスト
- Physical Consistency Bridges Heterogeneous Data in Molecular Multi-Task Learning [79.75718786477638]
我々は、それらを接続する物理法則が存在する分子的タスクの専門性を生かし、整合性トレーニングアプローチを設計する。
より正確なエネルギーデータにより、構造予測の精度が向上することを示した。
また、整合性トレーニングは、構造予測を改善するために、力と非平衡構造データを直接活用できることがわかった。
論文 参考訳(メタデータ) (2024-10-14T03:11:33Z) - DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Interpretable Machine Learning for Discovery: Statistical Challenges \&
Opportunities [1.2891210250935146]
我々は、解釈可能な機械学習の分野について議論し、レビューする。
解釈可能な機械学習を用いて行うことができる発見の種類について概説する。
我々は、これらの発見をデータ駆動方式でどのように検証するかという大きな課題に焦点をあてる。
論文 参考訳(メタデータ) (2023-08-02T23:57:31Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - A Survey on Semantics in Automated Data Science [14.331183226753547]
データサイエンティストは常識推論とドメイン知識を活用して、予測モデルを構築するためのデータを理解し、強化する。
データサイエンス自動化のための新しいツールと組み合わせて、データに対する基本的なセマンティック推論を活用することが、一貫性と説明可能なデータ拡張と変換にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2022-05-16T23:16:09Z) - Automating Data Science: Prospects and Challenges [30.4496620661692]
データサイエンスにおける自動化は、データサイエンティストの仕事の促進と変換を目的としている。
データサイエンスの重要な部分は、特にモデリング段階で既に自動化されています。
その他の側面は自動化が難しく、技術的課題だけでなく、オープンでコンテキストに依存したタスクは人間のインタラクションを必要とするためである。
論文 参考訳(メタデータ) (2021-05-12T14:34:35Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z) - Principles and Practice of Explainable Machine Learning [12.47276164048813]
本稿では、特に機械学習(ML)とパターン認識モデルに関するデータ駆動手法に焦点を当てる。
メソッドの頻度と複雑さが増すにつれて、少なくともビジネスの利害関係者はモデルの欠点に懸念を抱いている。
我々は、業界実践者が説明可能な機械学習の分野をよりよく理解するための調査を実施した。
論文 参考訳(メタデータ) (2020-09-18T14:50:27Z) - From Data to Knowledge to Action: A Global Enabler for the 21st Century [26.32590947516587]
コンピュータと数理科学の進歩が相まって、真の証拠に基づく意思決定を可能にする前例のない能力がもたらされた。
これらの機能は、データの大規模なキャプチャと、そのデータの洞察とレコメンデーションへの変換を可能にする。
商業、科学、教育、芸術、エンターテイメントのWebへの移行により、人間の活動に関する構造化された、非構造化されたデータベースが、これまで例のない量で利用可能になった。
論文 参考訳(メタデータ) (2020-07-31T19:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。