論文の概要: We Need Improved Data Curation and Attribution in AI for Scientific Discovery
- arxiv url: http://arxiv.org/abs/2504.02486v1
- Date: Thu, 03 Apr 2025 11:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 17:36:37.65228
- Title: We Need Improved Data Curation and Attribution in AI for Scientific Discovery
- Title(参考訳): 科学的発見のためのAIにおけるデータキュレーションと属性の改善
- Authors: Mara Graziani, Antonio Foncubierta, Dimitrios Christofidellis, Irina Espejo-Morales, Malina Molnar, Marvin Alberts, Matteo Manica, Jannis Born,
- Abstract要約: 本研究では, 実実験データとは対照的に, 合成データの役割について検討する。
オープンアクセスプラットフォームで利用可能な実験データセットの約4分の3は、比較的低い採用率である。
本稿では,実際の実験データの透かしに焦点をあてることにより,合成データ検出の自動化に向けた継続的な取り組みを補うことを提案する。
- 参考スコア(独自算出の注目度): 3.831097744380551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the interplay between human-generated and synthetic data evolves, new challenges arise in scientific discovery concerning the integrity of the data and the stability of the models. In this work, we examine the role of synthetic data as opposed to that of real experimental data for scientific research. Our analyses indicate that nearly three-quarters of experimental datasets available on open-access platforms have relatively low adoption rates, opening new opportunities to enhance their discoverability and usability by automated methods. Additionally, we observe an increasing difficulty in distinguishing synthetic from real experimental data. We propose supplementing ongoing efforts in automating synthetic data detection by increasing the focus on watermarking real experimental data, thereby strengthening data traceability and integrity. Our estimates suggest that watermarking even less than half of the real world data generated annually could help sustain model robustness, while promoting a balanced integration of synthetic and human-generated content.
- Abstract(参考訳): 人為的なデータと合成データの相互作用が進化するにつれて、データの完全性やモデルの安定性に関する科学的発見に新たな課題が生じる。
本研究では, 科学研究における実実験データとは対照的に, 合成データの役割について検討する。
分析の結果,オープンアクセスプラットフォーム上で利用可能な実験データセットの約4分の3は,比較的採用率が低く,自動手法による発見性とユーザビリティを高める新たな機会が開けていることがわかった。
さらに,実実験データと合成データを区別することの難しさも増大している。
本稿では,実際の実験データを透かし,データのトレーサビリティと整合性を高めることで,合成データ検出の自動化に向けた継続的な取り組みを補完することを提案する。
我々の推定では、毎年発生する実世界のデータの半分未満の透かしは、モデルロバスト性を維持しつつ、合成コンテンツと人為的コンテンツのバランスの取れた統合を促進することを示唆している。
関連論文リスト
- An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval [51.10419281315848]
我々は,テキストベース人検索(TBPR)研究における合成データの可能性を探るため,実証的研究を行った。
本稿では,自動プロンプト構築戦略を導入するクラス間画像生成パイプラインを提案する。
我々は、画像のさらなる編集に生成AIモデルを応用した、クラス内画像拡張パイプラインを開発する。
論文 参考訳(メタデータ) (2025-03-28T06:18:15Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。
我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文 参考訳(メタデータ) (2024-12-02T11:12:01Z) - Synthetic Data from Diffusion Models Improve Drug Discovery Prediction [1.3686993145787065]
データあいまいさは、重要な研究課題に答えようとする研究者にとって、データのキュレーションを難しくする。
本稿では,リガンドおよび薬物動態データをエンドツーエンドに生成できる新しい拡散GNNモデルSyngandを提案する。
我々は,AqSolDB,LD50,hERGを中心とした下流回帰タスクにおいて,Syngand生成した合成目標データの有効性について,最初の有望な結果を示した。
論文 参考訳(メタデータ) (2024-05-06T19:09:37Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - On the Equivalency, Substitutability, and Flexibility of Synthetic Data [9.459709213597707]
本研究では,合成データと実世界のデータとの等価性,実データに対する合成データの置換可能性,合成データ生成装置の柔軟性について検討する。
以上の結果から, 合成データによりモデル性能が向上するだけでなく, 実データへの置換性も向上し, 性能損失の60%から80%が置換可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-24T17:21:32Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。