論文の概要: On some elusive aspects of databases hindering AI based discovery: A
case study on superconducting materials
- arxiv url: http://arxiv.org/abs/2311.09891v1
- Date: Thu, 16 Nov 2023 13:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:07:19.126773
- Title: On some elusive aspects of databases hindering AI based discovery: A
case study on superconducting materials
- Title(参考訳): AIに基づく発見を妨げるデータベースの解明的側面について:超伝導材料を事例として
- Authors: Giovanni Trezza, Eliodoro Chiavazzo
- Abstract要約: 本論では,本質的な偏りのあるサンプル選択,隠れ変数の可能性,データ年齢の相違という3つの側面について論じる。
我々の知る限り、本質的なデータバイアスの存在を検知し定量化できる最初の戦略を提案し、検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It stands to reason that the amount and the quality of big data is of key
importance for setting up accurate AI-driven models. Nonetheless, we believe
there are still critical roadblocks in the inherent generation of databases,
that are often underestimated and poorly discussed in the literature. In our
view, such issues can seriously hinder the AI-based discovery process, even
when high quality, sufficiently large and highly reputable data sources are
available. Here, considering superconducting and thermoelectric materials as
two representative case studies, we specifically discuss three aspects, namely
intrinsically biased sample selection, possible hidden variables, disparate
data age. Importantly, to our knowledge, we suggest and test a first strategy
capable of detecting and quantifying the presence of the intrinsic data bias.
- Abstract(参考訳): ビッグデータの量と品質が、正確なAI駆動モデルを構築する上で重要な意味を持つのは理にかなっている。
それでも、本書ではしばしば過小評価され、議論されていないデータベースには、依然として重要な障害があると考えています。
我々の見解では、そのような問題は、高品質で十分に大きく、信頼性の高いデータソースが利用可能であっても、AIベースの発見プロセスに深刻な障害を与える可能性がある。
ここでは, 超伝導材料と熱電材料を2つの代表的なケーススタディとして, 偏りのある試料選択, 隠れ変数の可能性, 異種データ年代という3つの側面を考察した。
重要なことは、本質的なデータバイアスの存在を検知し、定量化できる最初の戦略を提案することである。
関連論文リスト
- Data Quality Issues in Vulnerability Detection Datasets [1.6114012813668932]
脆弱性検出は、サイバーセキュリティのためのソフトウェアの潜在的な弱点を特定する上で、極めて難しいタスクである。
深層学習(DL)は検出プロセスの自動化に大きな進歩を遂げた。
この目的のためにDLモデルをトレーニングするために、多くのデータセットが作成されています。
しかし、これらのデータセットは、DLモデルの検出精度の低下につながるいくつかの問題に悩まされる。
論文 参考訳(メタデータ) (2024-10-08T13:31:29Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Towards Generalizable Data Protection With Transferable Unlearnable
Examples [50.628011208660645]
本稿では、転送不可能な例を生成することによって、新しい一般化可能なデータ保護手法を提案する。
私たちの知る限りでは、これはデータ分散の観点からデータのプライバシを調べる最初のソリューションです。
論文 参考訳(メタデータ) (2023-05-18T04:17:01Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - ET-AL: Entropy-Targeted Active Learning for Bias Mitigation in Materials
Data [8.623994950369127]
材料データとデータ中心の情報ツールは、材料の発見と設計を劇的に促進する。
機械学習のようなデータ駆動型モデルは、多くの注目を集め、大きな進歩をみせている。
材料データ品質の重要な側面であるバイアス緩和に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-15T04:12:00Z) - Do Deep Neural Networks Always Perform Better When Eating More Data? [82.6459747000664]
Identically Independent Distribution(IID)とOut of Distribution(OOD)による実験を設計する。
IID条件下では、情報の量は各サンプルの効果度、サンプルの寄与度、クラス間の差がクラス情報の量を決定する。
OOD条件下では、試料のクロスドメイン度が寄与を決定づけ、無関係元素によるバイアス適合はクロスドメインの重要な要素である。
論文 参考訳(メタデータ) (2022-05-30T15:40:33Z) - Data Smells: Categories, Causes and Consequences, and Detection of
Suspicious Data in AI-based Systems [3.793596705511303]
記事では、AIベースのシステムのコンテキストにおいて、その原因、結果、検出、使用に関するデータの臭いと精巧さを概念化している。
さらに、36のデータの臭いのカタログを3つのカテゴリ(可読性スメル、可視性スメル、一貫性スメル)に分けて提示する。
論文 参考訳(メタデータ) (2022-03-19T19:21:52Z) - Deep neural networks approach to microbial colony detection -- a
comparative analysis [52.77024349608834]
本稿では,AGARデータセットを用いた3つの深層学習手法の性能について検討する。
得られた結果は将来の実験のベンチマークとして機能するかもしれない。
論文 参考訳(メタデータ) (2021-08-23T12:06:00Z) - Occams Razor for Big Data? On Detecting Quality in Large Unstructured
Datasets [0.0]
分析複雑性への新たな傾向は、科学におけるパシモニーやオッカム・ラザーの原理にとって深刻な課題である。
データクラスタリングのための計算的ビルディングブロックアプローチは、最小の計算時間で大規模な非構造化データセットを扱うのに役立つ。
このレビューは、東西の文化的な違いがビッグデータ分析の過程にどのように影響するかを結論付けている。
論文 参考訳(メタデータ) (2020-11-12T16:06:01Z) - Data Mining with Big Data in Intrusion Detection Systems: A Systematic
Literature Review [68.15472610671748]
クラウドコンピューティングは、複雑で高性能でスケーラブルな計算のために、強力で必要不可欠な技術になっている。
データ生成の迅速化とボリュームは、データ管理とセキュリティに重大な課題をもたらし始めている。
ビッグデータ設定における侵入検知システム(IDS)の設計と展開が重要視されている。
論文 参考訳(メタデータ) (2020-05-23T20:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。