論文の概要: On the Readiness of Scientific Data for a Fair and Transparent Use in
Machine Learning
- arxiv url: http://arxiv.org/abs/2401.10304v1
- Date: Thu, 18 Jan 2024 12:11:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 17:53:30.420448
- Title: On the Readiness of Scientific Data for a Fair and Transparent Use in
Machine Learning
- Title(参考訳): 機械学習における公正かつ透明な科学データの準備性について
- Authors: Joan Giner-Miguelez, Abel G\'omez, Jordi Cabot
- Abstract要約: 我々は、機械学習コミュニティと規制機関のニーズを満たす科学的データドキュメンテーションがどのようにML技術に使用されるかを分析する。
異なる領域の4041個のデータ文書のサンプルを検証し、要求された次元の完全性とカバレッジを評価した。
我々は,データ作成者や科学データ発行者に対して,ML技術における透明性と公正な使用に対するデータの準備性を高めるための一連の勧告ガイドラインを提案する。
- 参考スコア(独自算出の注目度): 1.961305559606562
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To ensure the fairness and trustworthiness of machine learning (ML) systems,
recent legislative initiatives and relevant research in the ML community have
pointed out the need to document the data used to train ML models. Besides,
data-sharing practices in many scientific domains have evolved in recent years
for reproducibility purposes. In this sense, the adoption of these practices by
academic institutions has encouraged researchers to publish their data and
technical documentation in peer-reviewed publications such as data papers. In
this study, we analyze how this scientific data documentation meets the needs
of the ML community and regulatory bodies for its use in ML technologies. We
examine a sample of 4041 data papers of different domains, assessing their
completeness and coverage of the requested dimensions, and trends in recent
years, putting special emphasis on the most and least documented dimensions. As
a result, we propose a set of recommendation guidelines for data creators and
scientific data publishers to increase their data's preparedness for its
transparent and fairer use in ML technologies.
- Abstract(参考訳): 機械学習(ML)システムの公正性と信頼性を確保するため、近年の立法活動とMLコミュニティにおける関連する研究は、MLモデルのトレーニングに使用されるデータの文書化の必要性を指摘している。
さらに、多くの科学分野におけるデータ共有の実践は、再現性のために近年進化している。
この意味では、学術機関によるこれらの実践の採用により、研究者はデータ論文などの査読された出版物にデータと技術文書を公開することを奨励している。
本研究では,この科学的データドキュメンテーションが,ML技術におけるMLコミュニティと規制機関のニーズにどのように合致するかを分析する。
異なるドメインの4041のデータ論文のサンプルを調べ,要求された次元の完全性とカバレッジ,近年の動向を評価し,最も最も文書化されていない次元に注目した。
その結果、データ作成者や科学データ発行者に対して、ML技術における透明性と公正な使用に対するデータの準備性を高めるための一連の勧告ガイドラインを提案する。
関連論文リスト
- A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Data-driven Discovery with Large Generative Models [47.324203863823335]
このポジションペーパーは、機械学習(ML)コミュニティに、大規模生成モデル(LGM)の能力を活用するよう促す。
我々は、LGMが理想的なデータ駆動探索システムのために、どのようにいくつかのデシラタを満たすかを実証する。
我々は,フィードバック機構によるアクティブなユーザモデレーションとともに,フェールプロテクションツールの統合を提唱する。
論文 参考訳(メタデータ) (2024-02-21T08:26:43Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM
Workflows [81.38065762300718]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - The Open Review-Based (ORB) dataset: Towards Automatic Assessment of
Scientific Papers and Experiment Proposals in High-Energy Physics [0.0]
新しい包括的オープンレビューベースデータセット(ORB)を紹介する。
これには36,000以上の科学論文のキュレートされたリストが含まれ、89,000以上のレビューと最終決定が含まれている。
本稿では,データアーキテクチャと収集データの概要と関連する統計について述べる。
論文 参考訳(メタデータ) (2023-11-29T20:52:02Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Machine Learning vs. Deep Learning in 5G Networks -- A Comparison of
Scientific Impact [0.0]
機械学習(ML)とディープラーニング(DL)技術は5Gネットワークで使用されている。
本研究の目的は, この2つの手法の科学的影響の違いを, 統計文献学を用いて明らかにすることである。
Web of Science (WoS)データベースは、MLのための2245の論文とDL関連の研究のための1407の論文をホストしている。
論文 参考訳(メタデータ) (2022-10-13T19:54:17Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Method and Dataset Entity Mining in Scientific Literature: A CNN +
Bi-LSTM Model with Self-attention [21.93889297841459]
MDERと呼ばれる新しいエンティティ認識モデルを提案し、科学的論文から効果的にメソッドとデータセットを抽出することができる。
我々は,NLP,CV,データマイニング,AIの4つの研究分野の論文から構築したデータセットのモデルを評価する。
論文 参考訳(メタデータ) (2020-10-26T13:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。