論文の概要: From Measurement Instruments to Training Data: Leveraging Theory-Driven Synthetic Training Data for Measuring Social Constructs
- arxiv url: http://arxiv.org/abs/2410.12622v1
- Date: Wed, 16 Oct 2024 14:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:42.568924
- Title: From Measurement Instruments to Training Data: Leveraging Theory-Driven Synthetic Training Data for Measuring Social Constructs
- Title(参考訳): 測定機器から学習データへ:社会構造測定のための理論駆動型学習データを活用する
- Authors: Lukas Birkenmaier, Matthias Roth, Indira Sen,
- Abstract要約: 理論駆動型総合学習データの社会構造測定における可能性について検討する。
政治トピック分類におけるラベル付きデータの必要性を低減するために,合成データが極めて有効であることを示す。
- 参考スコア(独自算出の注目度): 2.0591508284285376
- License:
- Abstract: Computational text classification is a challenging task, especially for multi-dimensional social constructs. Recently, there has been increasing discussion that synthetic training data could enhance classification by offering examples of how these constructs are represented in texts. In this paper, we systematically examine the potential of theory-driven synthetic training data for improving the measurement of social constructs. In particular, we explore how researchers can transfer established knowledge from measurement instruments in the social sciences, such as survey scales or annotation codebooks, into theory-driven generation of synthetic data. Using two studies on measuring sexism and political topics, we assess the added value of synthetic training data for fine-tuning text classification models. Although the results of the sexism study were less promising, our findings demonstrate that synthetic data can be highly effective in reducing the need for labeled data in political topic classification. With only a minimal drop in performance, synthetic data allows for substituting large amounts of labeled data. Furthermore, theory-driven synthetic data performed markedly better than data generated without conceptual information in mind.
- Abstract(参考訳): 計算テキスト分類は特に多次元社会構造において難しい課題である。
近年,これらの構造がテキストでどのように表現されるかを示すことによって,合成学習データによる分類の強化が議論されている。
本稿では,理論駆動型合成学習データの有用性を体系的に検証し,社会構造の測定を改善する。
特に,研究者は,調査尺度やアノテーションコードブックなどの社会科学における測定機器から,理論駆動型合成データ生成への確立した知識の移転について検討する。
セクシズムと政治トピックを測定する2つの研究を用いて、微調整テキスト分類モデルのための合成トレーニングデータの付加価値を評価する。
性差別研究の結果は有望ではなかったが, 政治トピック分類におけるラベル付きデータの必要性を低減させるには, 合成データが極めて有効であることが示唆された。
最小限のパフォーマンスの低下で、合成データは大量のラベル付きデータを置換することができる。
さらに,理論駆動型合成データは,概念情報を念頭に置いて生成したデータよりも著しく優れた結果を得た。
関連論文リスト
- Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - A Novel Taxonomy for Navigating and Classifying Synthetic Data in Healthcare Applications [9.66493160220239]
本稿では,3つの主要品種の観点でランドスケープをナビゲートするために,医療における合成データの新たな分類法を提案する。
Data Proportionは、データセットと関連するprosとconsにおける合成データの比率が異なる。
データモダリティ(Data Modality)は、合成やフォーマット固有の課題に対処可能な、さまざまなデータフォーマットを指す。
データ変換は、そのユーティリティやプライバシといったデータセットの特定の側面を合成データで改善する。
論文 参考訳(メタデータ) (2024-09-01T12:04:03Z) - Artificial Data, Real Insights: Evaluating Opportunities and Risks of Expanding the Data Ecosystem with Synthetic Data [0.0]
Synthetic Dataは新しいものではないが、Generative AIの最近の進歩は、研究ツールボックスの拡張への関心を高めている。
この記事では、Synthetic Dataドメインの全範囲を分類します。
論文 参考訳(メタデータ) (2024-08-10T16:46:35Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthetic Data in Healthcare [10.555189948915492]
本稿では,データ作成のための物理・統計シミュレーションの事例と医療・医療への応用について述べる。
人工物は、プライバシ、エクイティ、安全性、継続的な、因果学習を促進することができるが、欠陥や盲点を導入し、バイアスを伝播または誇張するリスクも負う。
論文 参考訳(メタデータ) (2023-04-06T17:23:39Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z) - Improving Text Relationship Modeling with Artificial Data [0.07614628596146598]
本稿では,デジタル図書館における関係分類への合成データアプローチの適用と評価を行う。
本書間の全部分関係の分類において、合成データはディープニューラルネットワーク分類器を91%改善することがわかった。
論文 参考訳(メタデータ) (2020-10-27T22:04:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。