論文の概要: From Measurement Instruments to Training Data: Leveraging Theory-Driven Synthetic Training Data for Measuring Social Constructs
- arxiv url: http://arxiv.org/abs/2410.12622v1
- Date: Wed, 16 Oct 2024 14:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:42.568924
- Title: From Measurement Instruments to Training Data: Leveraging Theory-Driven Synthetic Training Data for Measuring Social Constructs
- Title(参考訳): 測定機器から学習データへ:社会構造測定のための理論駆動型学習データを活用する
- Authors: Lukas Birkenmaier, Matthias Roth, Indira Sen,
- Abstract要約: 理論駆動型総合学習データの社会構造測定における可能性について検討する。
政治トピック分類におけるラベル付きデータの必要性を低減するために,合成データが極めて有効であることを示す。
- 参考スコア(独自算出の注目度): 2.0591508284285376
- License:
- Abstract: Computational text classification is a challenging task, especially for multi-dimensional social constructs. Recently, there has been increasing discussion that synthetic training data could enhance classification by offering examples of how these constructs are represented in texts. In this paper, we systematically examine the potential of theory-driven synthetic training data for improving the measurement of social constructs. In particular, we explore how researchers can transfer established knowledge from measurement instruments in the social sciences, such as survey scales or annotation codebooks, into theory-driven generation of synthetic data. Using two studies on measuring sexism and political topics, we assess the added value of synthetic training data for fine-tuning text classification models. Although the results of the sexism study were less promising, our findings demonstrate that synthetic data can be highly effective in reducing the need for labeled data in political topic classification. With only a minimal drop in performance, synthetic data allows for substituting large amounts of labeled data. Furthermore, theory-driven synthetic data performed markedly better than data generated without conceptual information in mind.
- Abstract(参考訳): 計算テキスト分類は特に多次元社会構造において難しい課題である。
近年,これらの構造がテキストでどのように表現されるかを示すことによって,合成学習データによる分類の強化が議論されている。
本稿では,理論駆動型合成学習データの有用性を体系的に検証し,社会構造の測定を改善する。
特に,研究者は,調査尺度やアノテーションコードブックなどの社会科学における測定機器から,理論駆動型合成データ生成への確立した知識の移転について検討する。
セクシズムと政治トピックを測定する2つの研究を用いて、微調整テキスト分類モデルのための合成トレーニングデータの付加価値を評価する。
性差別研究の結果は有望ではなかったが, 政治トピック分類におけるラベル付きデータの必要性を低減させるには, 合成データが極めて有効であることが示唆された。
最小限のパフォーマンスの低下で、合成データは大量のラベル付きデータを置換することができる。
さらに,理論駆動型合成データは,概念情報を念頭に置いて生成したデータよりも著しく優れた結果を得た。
関連論文リスト
- Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthetic Data in Healthcare [10.555189948915492]
本稿では,データ作成のための物理・統計シミュレーションの事例と医療・医療への応用について述べる。
人工物は、プライバシ、エクイティ、安全性、継続的な、因果学習を促進することができるが、欠陥や盲点を導入し、バイアスを伝播または誇張するリスクも負う。
論文 参考訳(メタデータ) (2023-04-06T17:23:39Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z) - Improving Text Relationship Modeling with Artificial Data [0.07614628596146598]
本稿では,デジタル図書館における関係分類への合成データアプローチの適用と評価を行う。
本書間の全部分関係の分類において、合成データはディープニューラルネットワーク分類器を91%改善することがわかった。
論文 参考訳(メタデータ) (2020-10-27T22:04:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。