論文の概要: Generation of synthetic data using breast cancer dataset and classification with resnet18
- arxiv url: http://arxiv.org/abs/2405.16286v1
- Date: Sat, 25 May 2024 15:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 22:07:19.350392
- Title: Generation of synthetic data using breast cancer dataset and classification with resnet18
- Title(参考訳): 乳癌データセットを用いた合成データの生成とresnet18を用いた分類
- Authors: Dilsat Berin Aytar, Semra Gunduc,
- Abstract要約: 合成データは、実際のデータの制約、ラベル付きデータの収集のコスト、プライバシとセキュリティの問題など、さまざまな理由から必要とされる。
GAN(Generative Adversarial Networks)と呼ばれるディープラーニングモデルは,合成データを生成する目的で開発された。
本研究では,乳腺病理組織学的データセットを用いて悪性および陰性にラベル付けされた合成パッチ画像を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since technology is advancing so quickly in the modern era of information, data is becoming an essential resource in many fields. Correct data collection, organization, and analysis make it a potent tool for successful decision-making, process improvement, and success across a wide range of sectors. Synthetic data is required for a number of reasons, including the constraints of real data, the expense of collecting labeled data, and privacy and security problems in specific situations and domains. For a variety of reasons, including security, ethics, legal restrictions, sensitivity and privacy issues, and ethics, synthetic data is a valuable tool, particularly in the health sector. A deep learning model called GAN (Generative Adversarial Networks) has been developed with the intention of generating synthetic data. In this study, the Breast Histopathology dataset was used to generate malignant and negatively labeled synthetic patch images using MSG-GAN (Multi-Scale Gradients for Generative Adversarial Networks), a form of GAN, to aid in cancer identification. After that, the ResNet18 model was used to classify both synthetic and real data via Transfer Learning. Following the investigation, an attempt was made to ascertain whether the synthetic images behaved like the real data or if they are comparable to the original data.
- Abstract(参考訳): 現代の情報時代において、テクノロジーは急速に進歩しているため、多くの分野においてデータが必須のリソースになりつつある。
正しいデータ収集、組織、分析は、幅広い分野にわたる意思決定、プロセス改善、成功のための強力なツールとなります。
合成データは、実際のデータの制約、ラベル付きデータの収集のコスト、特定の状況やドメインにおけるプライバシーとセキュリティの問題など、さまざまな理由から必要とされる。
セキュリティ、倫理、法的制限、敏感さとプライバシーの問題、倫理など、さまざまな理由から、合成データは特に医療分野において貴重なツールである。
GAN(Generative Adversarial Networks)と呼ばれるディープラーニングモデルは,合成データを生成する目的で開発された。
本研究では,GANの形式であるMSG-GAN(Multi-Scale Gradients for Generative Adversarial Networks)を用いて,悪性かつ負にラベル付けされた合成パッチ画像を生成するために,乳癌病理組織データセットを用いた。
その後、ResNet18モデルを使用して、Transfer Learningを通じて合成データと実データの両方を分類した。
調査の後、合成画像が実際のデータのように振る舞うか、あるいは元のデータに匹敵するかを確認する試みが行われた。
関連論文リスト
- Cancer-Net SCa-Synth: An Open Access Synthetically Generated 2D Skin Lesion Dataset for Skin Cancer Classification [65.83291923029985]
アメリカ合衆国では、皮膚がんが最も一般的に診断されるがんと位置づけられており、公衆衛生上の問題となっている。
データセットのキュレーションとディープラーニングの進歩により、皮膚がんの迅速かつ正確な検出が期待できる。
Cancer-Net SCa- Synthは、皮膚がん分類のためのオープンアクセス合成された2D皮膚病変データセットである。
論文 参考訳(メタデータ) (2024-11-08T02:04:21Z) - A Novel Taxonomy for Navigating and Classifying Synthetic Data in Healthcare Applications [9.66493160220239]
本稿では,3つの主要品種の観点でランドスケープをナビゲートするために,医療における合成データの新たな分類法を提案する。
Data Proportionは、データセットと関連するprosとconsにおける合成データの比率が異なる。
データモダリティ(Data Modality)は、合成やフォーマット固有の課題に対処可能な、さまざまなデータフォーマットを指す。
データ変換は、そのユーティリティやプライバシといったデータセットの特定の側面を合成データで改善する。
論文 参考訳(メタデータ) (2024-09-01T12:04:03Z) - NFDI4Health workflow and service for synthetic data generation, assessment and risk management [0.0]
この課題に対する有望な解決策は、合成データ生成である。
この手法は、実際のデータの統計特性を模倣する全く新しいデータセットを作成する。
本稿では,ドイツのNFDI4Healthプロジェクト(NFDI4Health)の文脈で開発されたワークフローとサービスについて述べる。
論文 参考訳(メタデータ) (2024-08-08T14:08:39Z) - Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks [5.0243930429558885]
本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
論文 参考訳(メタデータ) (2024-07-22T10:31:07Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - Enabling Synthetic Data adoption in regulated domains [1.9512796489908306]
Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いている。
特に、高度に規制されたシナリオにおける情報のセンシティブな性質を考慮する必要がある。
このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。
論文 参考訳(メタデータ) (2022-04-13T10:53:54Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。