論文の概要: DATED: Guidelines for Creating Synthetic Datasets for Engineering Design
Applications
- arxiv url: http://arxiv.org/abs/2305.09018v1
- Date: Mon, 15 May 2023 21:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 17:11:56.293143
- Title: DATED: Guidelines for Creating Synthetic Datasets for Engineering Design
Applications
- Title(参考訳): Dated: エンジニアリング設計アプリケーションのための合成データセット作成ガイドライン
- Authors: Cyril Picard, J\"urg Schiffmann and Faez Ahmed
- Abstract要約: 本研究では,合成データセットの生成,注釈付け,検証のための包括的ガイドラインを提案する。
この研究は、データセットの適切なサイズ、多様性、有用性、現実性を保証するために、思慮深いサンプリング手法の重要性を強調している。
本論文は、総合的に、エンジニアリング設計のための合成データセットの作成と公開を意図した研究者に貴重な洞察を提供する。
- 参考スコア(独自算出の注目度): 3.463438487417909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploiting the recent advancements in artificial intelligence, showcased by
ChatGPT and DALL-E, in real-world applications necessitates vast,
domain-specific, and publicly accessible datasets. Unfortunately, the scarcity
of such datasets poses a significant challenge for researchers aiming to apply
these breakthroughs in engineering design. Synthetic datasets emerge as a
viable alternative. However, practitioners are often uncertain about generating
high-quality datasets that accurately represent real-world data and are
suitable for the intended downstream applications. This study aims to fill this
knowledge gap by proposing comprehensive guidelines for generating, annotating,
and validating synthetic datasets. The trade-offs and methods associated with
each of these aspects are elaborated upon. Further, the practical implications
of these guidelines are illustrated through the creation of a turbo-compressors
dataset. The study underscores the importance of thoughtful sampling methods to
ensure the appropriate size, diversity, utility, and realism of a dataset. It
also highlights that design diversity does not equate to performance diversity
or realism. By employing test sets that represent uniform, real, or
task-specific samples, the influence of sample size and sampling strategy is
scrutinized. Overall, this paper offers valuable insights for researchers
intending to create and publish synthetic datasets for engineering design,
thereby paving the way for more effective applications of AI advancements in
the field. The code and data for the dataset and methods are made publicly
accessible at https://github.com/cyrilpic/radcomp .
- Abstract(参考訳): ChatGPTとDALL-Eがデモした人工知能の最近の進歩を、現実世界のアプリケーションに展開するには、膨大な、ドメイン固有の、パブリックアクセス可能なデータセットが必要である。
残念ながら、このようなデータセットの不足は、これらのブレークスルーをエンジニアリング設計に適用しようとする研究者にとって大きな課題となる。
合成データセットは、実行可能な代替品として出現する。
しかし、実践者は多くの場合、現実世界のデータを正確に表現し、意図した下流アプリケーションに適した高品質なデータセットを生成することに不確実である。
本研究は,合成データセットの生成,注釈作成,検証のための包括的なガイドラインを提案することにより,この知識ギャップを埋めることを目的としている。
これら各側面に関連するトレードオフと方法が詳しく説明されている。
さらに, ターボ圧縮機データセットの作成により, これらのガイドラインの実用的意義を示す。
この研究は、データセットのサイズ、多様性、有用性、リアリズムを保証するために、思慮深いサンプリング方法の重要性を強調している。
また、デザインの多様性はパフォーマンスの多様性やリアリズムと同等ではないことも強調している。
一様、実またはタスク固有のサンプルを表すテストセットを使用することで、サンプルサイズとサンプリング戦略の影響を精査する。
全体として、本論文は、エンジニアリング設計のための合成データセットの作成と公開を目的としている研究者にとって貴重な洞察を提供する。
データセットとメソッドのコードとデータはhttps://github.com/cyrilpic/radcompで公開されている。
関連論文リスト
- Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。