論文の概要: On the Readiness of Scientific Data for a Fair and Transparent Use in Machine Learning
- arxiv url: http://arxiv.org/abs/2401.10304v2
- Date: Tue, 17 Dec 2024 16:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:55:45.126437
- Title: On the Readiness of Scientific Data for a Fair and Transparent Use in Machine Learning
- Title(参考訳): 機械学習における公正かつ透明な科学データの準備性について
- Authors: Joan Giner-Miguelez, Abel Gómez, Jordi Cabot,
- Abstract要約: 異なる領域の4041データ文書のサンプルについて検討し、その完全性、要求された寸法のカバレッジ、近年の動向について検討する。
我々は,データ作成者や科学データ発行者に対して,機械学習技術における透明性と公正な使用に対するデータの準備性を高めるための一連の勧告ガイドラインを提案する。
- 参考スコア(独自算出の注目度): 1.8270184406083445
- License:
- Abstract: To ensure the fairness and trustworthiness of machine learning (ML) systems, recent legislative initiatives and relevant research in the ML community have pointed out the need to document the data used to train ML models. Besides, data-sharing practices in many scientific domains have evolved in recent years for reproducibility purposes. In this sense, academic institutions' adoption of these practices has encouraged researchers to publish their data and technical documentation in peer-reviewed publications such as data papers. In this study, we analyze how this broader scientific data documentation meets the needs of the ML community and regulatory bodies for its use in ML technologies. We examine a sample of 4041 data papers of different domains, assessing their completeness, coverage of the requested dimensions, and trends in recent years. We focus on the most and least documented dimensions and compare the results with those of an ML-focused venue (NeurIPS D&B track) publishing papers describing datasets. As a result, we propose a set of recommendation guidelines for data creators and scientific data publishers to increase their data's preparedness for its transparent and fairer use in ML technologies.
- Abstract(参考訳): 機械学習(ML)システムの公正性と信頼性を確保するため、近年の立法活動とMLコミュニティにおける関連する研究は、MLモデルのトレーニングに使用されるデータの文書化の必要性を指摘している。
さらに、多くの科学分野におけるデータ共有の実践は、再現性のために近年進化している。
この意味で、学術機関のこうした実践の採用は、研究者がデータ論文などの査読された出版物にデータと技術文書を公開することを奨励している。
本研究では,このより広範な科学的データドキュメンテーションが,ML技術におけるMLコミュニティと規制機関のニーズにどのように合致するかを分析する。
異なる領域の4041データ文書のサンプルについて検討し、その完全性、要求された寸法のカバレッジ、近年の動向について検討する。
我々は、最も最も文書化されていない次元に注目し、結果をデータセットを記述する論文を発行するMLにフォーカスした会場(NeurIPS D&Bトラック)と比較する。
その結果、データ作成者や科学データ発行者に対して、ML技術における透明性と公正な使用に対するデータの準備性を高めるための一連の勧告ガイドラインを提案する。
関連論文リスト
- Comparison of Feature Learning Methods for Metadata Extraction from PDF Scholarly Documents [8.516310581591426]
本研究では,自然言語処理(NLP)やコンピュータビジョン(CV),マルチモーダルアプローチなど,さまざまな特徴学習と予測手法を評価し,テンプレートのばらつきが高い文書からメタデータを抽出する。
我々は,学術文書のアクセシビリティの向上と,それらの広範な利用を促進することを目的としている。
論文 参考訳(メタデータ) (2025-01-09T09:03:43Z) - The State of Data Curation at NeurIPS: An Assessment of Dataset Development Practices in the Datasets and Benchmarks Track [1.5993707490601146]
この研究は、データキュレーションのレンズを通してNeurIPSにおけるデータセット開発プラクティスの分析を提供する。
本稿では,ルーブリックとツールキットからなるデータセットドキュメンテーションの評価フレームワークを提案する。
結果は、環境のフットプリント、倫理的考慮、データ管理に関するドキュメントの必要性がさらに高まっていることを示している。
論文 参考訳(メタデータ) (2024-10-29T19:07:50Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey [51.87875066383221]
本稿では、基本概念、従来の手法、ベンチマークデータセットを紹介し、CFDを改善する上で機械学習が果たす様々な役割について検討する。
我々は,空気力学,燃焼,大気・海洋科学,生物流体,プラズマ,記号回帰,秩序の低減など,CFDにおけるMLの現実的な応用を強調した。
シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
論文 参考訳(メタデータ) (2024-08-22T07:33:11Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - The Open Review-Based (ORB) dataset: Towards Automatic Assessment of
Scientific Papers and Experiment Proposals in High-Energy Physics [0.0]
新しい包括的オープンレビューベースデータセット(ORB)を紹介する。
これには36,000以上の科学論文のキュレートされたリストが含まれ、89,000以上のレビューと最終決定が含まれている。
本稿では,データアーキテクチャと収集データの概要と関連する統計について述べる。
論文 参考訳(メタデータ) (2023-11-29T20:52:02Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。