論文の概要: Curating Grounded Synthetic Data with Global Perspectives for Equitable AI
- arxiv url: http://arxiv.org/abs/2406.10258v2
- Date: Tue, 18 Jun 2024 08:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 01:05:59.607646
- Title: Curating Grounded Synthetic Data with Global Perspectives for Equitable AI
- Title(参考訳): 等価AIのための大域的視点を用いた接地合成データのキュレーション
- Authors: Elin Törnquist, Robert Alexander Caulk,
- Abstract要約: 我々は,実世界の多様性を基盤として,戦略的多様化を通じて充実した合成データセットを作成するための新しいアプローチを導入する。
我々は12の言語と125の国にまたがる包括的なニュース記事の集合を用いてデータを合成し、言語的・文化的表現の広さを確実にする。
予備的な結果は、従来のNERベンチマークのパフォーマンスが最大7.3%向上したことを示している。
- 参考スコア(独自算出の注目度): 0.5120567378386615
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The development of robust AI models relies heavily on the quality and variety of training data available. In fields where data scarcity is prevalent, synthetic data generation offers a vital solution. In this paper, we introduce a novel approach to creating synthetic datasets, grounded in real-world diversity and enriched through strategic diversification. We synthesize data using a comprehensive collection of news articles spanning 12 languages and originating from 125 countries, to ensure a breadth of linguistic and cultural representations. Through enforced topic diversification, translation, and summarization, the resulting dataset accurately mirrors real-world complexities and addresses the issue of underrepresentation in traditional datasets. This methodology, applied initially to Named Entity Recognition (NER), serves as a model for numerous AI disciplines where data diversification is critical for generalizability. Preliminary results demonstrate substantial improvements in performance on traditional NER benchmarks, by up to 7.3%, highlighting the effectiveness of our synthetic data in mimicking the rich, varied nuances of global data sources. This paper outlines the strategies employed for synthesizing diverse datasets and provides such a curated dataset for NER.
- Abstract(参考訳): 堅牢なAIモデルの開発は、利用可能なトレーニングデータの質と多様性に大きく依存している。
データ不足が一般的である分野において、合成データ生成は重要なソリューションを提供する。
本稿では,実世界の多様性を基盤として,戦略的多様化を通じて充実した合成データセットを作成するための新しいアプローチを提案する。
我々は12の言語と125の国にまたがる包括的なニュース記事の集合を用いてデータを合成し、言語的・文化的表現の広さを確実にする。
強制されたトピックの多様化、翻訳、要約を通じて、得られたデータセットは現実世界の複雑さを正確に反映し、従来のデータセットにおける表現不足の問題に対処する。
名前付きエンティティ認識(NER)に最初に適用されるこの方法論は、データの多様化が一般化可能性に不可欠である多くのAI分野のモデルとして機能する。
予備的な結果は、従来のNERベンチマークの性能を最大7.3%向上させ、グローバルなデータソースの豊かで多様なニュアンスを模倣する合成データの有効性を強調した。
本稿では,多種多様なデータセットを合成するための戦略を概説し,NERのためのキュレートされたデータセットを提供する。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification [7.357494019212501]
本研究では,合成データと実世界の分布を協調する効率的な重み付け手法を提案する。
複数のテキスト分類タスクにおいて,提案手法の有効性を実証的に評価した。
論文 参考訳(メタデータ) (2024-10-28T20:53:49Z) - Data Generation Using Large Language Models for Text Classification: An Empirical Case Study [15.447491854250227]
我々は、合成データに基づいて訓練された自然言語理解(NLU)モデルを用いて、異なる世代からの合成データの品質を評価する。
この研究は、これらの要因の影響を実証分析し、データ生成の実践を改善するためのレコメンデーションを提供する。
論文 参考訳(メタデータ) (2024-06-27T21:41:43Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。