論文の概要: Synthetic Data -- what, why and how?
- arxiv url: http://arxiv.org/abs/2205.03257v1
- Date: Fri, 6 May 2022 14:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 13:55:19.336785
- Title: Synthetic Data -- what, why and how?
- Title(参考訳): 合成データ --何、なぜ、どのように?
- Authors: James Jordon, Lukasz Szpruch, Florimond Houssiau, Mirko Bottarelli,
Giovanni Cherubin, Carsten Maple, Samuel N. Cohen, Adrian Weller
- Abstract要約: 本資料は, 合成データ技術の現状を概観することを目的としている。
この記事は技術的でない聴衆を対象としているが、専門家に明確性を提供するための正式な定義がいくつか与えられている。
- 参考スコア(独自算出の注目度): 30.413575182259773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This explainer document aims to provide an overview of the current state of
the rapidly expanding work on synthetic data technologies, with a particular
focus on privacy. The article is intended for a non-technical audience, though
some formal definitions have been given to provide clarity to specialists. This
article is intended to enable the reader to quickly become familiar with the
notion of synthetic data, as well as understand some of the subtle intricacies
that come with it. We do believe that synthetic data is a very useful tool, and
our hope is that this report highlights that, while drawing attention to
nuances that can easily be overlooked in its deployment.
- Abstract(参考訳): この説明書は、特にプライバシに焦点を当てた、合成データ技術に関する急速な研究の現状の概要を提供することを目的としている。
この記事は技術系でない読者を対象としているが、専門家に明確化するための公式な定義もいくつかある。
この記事は、読者が合成データの概念をすぐに理解できるようにし、それに伴う微妙な複雑さを理解することを目的としている。
合成データが非常に有用なツールであると信じており、このレポートでは、デプロイで見落としやすいニュアンスに注意を向けながら、その点を強調したいと考えています。
関連論文リスト
- Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - InstaSynth: Opportunities and Challenges in Generating Synthetic Instagram Data with ChatGPT for Sponsored Content Detection [0.0]
大規模言語モデル(LLM)は、非倫理的または違法な目的に使用できるテキストの生成コストを下げるという懸念を提起する。
本稿では,オンライン上でのスポンサードコンテンツの開示に関する法的要件の実施を支援するため,そのようなモデルが約束されているかを検討する。
論文 参考訳(メタデータ) (2024-03-22T13:58:42Z) - JOBSKAPE: A Framework for Generating Synthetic Job Postings to Enhance
Skill Matching [18.94748873243611]
JobSkapeは、スキル・ツー・タコノミーマッチングのための合成データを生成するフレームワークである。
このフレームワーク内では、ジョブ投稿の包括的な合成データセットであるSkillSkapeを作成します。
本稿では,大規模言語モデルを用いたスキル抽出とマッチングタスクのための多段階パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-05T17:57:26Z) - The Age of Synthetic Realities: Challenges and Opportunities [85.058932103181]
我々は、有害な合成生成を識別し、それらを現実と区別することのできる法医学的手法の開発における重要な必要性を強調した。
我々の焦点は、画像、ビデオ、オーディオ、テキストなどの様々なメディアの形式にまで及んでいる。
この研究は、AI生成技術の急速な進歩と、法科学の基本原理に対する影響により、最も重要である。
論文 参考訳(メタデータ) (2023-06-09T15:55:10Z) - Toward the Automated Construction of Probabilistic Knowledge Graphs for
the Maritime Domain [60.76554773885988]
国際海事犯罪はますます高度化しており、より広い犯罪ネットワークと結びついていることが多い。
これは、ハードデータと他のタイプのデータを組み合わせることを目的とした研究と開発に繋がった。
本稿では,確率的知識グラフの自動構築のためのプロトタイプであるMaritime DeepDiveを提案する。
論文 参考訳(メタデータ) (2023-05-04T00:24:30Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Faking feature importance: A cautionary tale on the use of
differentially-private synthetic data [3.631918877491949]
本稿では,生データから得られる特徴量と合成データから得られる特徴量との一致を実証的に分析する。
プライバシのレベルによって異なるため、さまざまなユーティリティー対策を適用して、特徴的重要性の合意を定量化します。
この研究は、金融や医療といった分野において、高感度データセットの合成バージョンを開発する上で重要な意味を持つ。
論文 参考訳(メタデータ) (2022-03-02T19:11:43Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。