論文の概要: An Interpretability-Guided Framework for Responsible Synthetic Data Generation in Emotional Text
- arxiv url: http://arxiv.org/abs/2511.16132v1
- Date: Thu, 20 Nov 2025 08:07:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.523224
- Title: An Interpretability-Guided Framework for Responsible Synthetic Data Generation in Emotional Text
- Title(参考訳): 感情テキストにおける応答型合成データ生成のための解釈可能性誘導型フレームワーク
- Authors: Paula Joy B. Martinez, Jose Marie Antonio Miñoza, Sebastian C. Ibañez,
- Abstract要約: ソーシャルメディアからの感情認識は、大衆の感情を理解するために重要である。
APIコストとプラットフォーム制限のエスカレートにより、トレーニングデータへのアクセスは違法に高価になっている。
本稿では,合成データ生成のための解釈可能性誘導フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Emotion recognition from social media is critical for understanding public sentiment, but accessing training data has become prohibitively expensive due to escalating API costs and platform restrictions. We introduce an interpretability-guided framework where Shapley Additive Explanations (SHAP) provide principled guidance for LLM-based synthetic data generation. With sufficient seed data, SHAP-guided approach matches real data performance, significantly outperforms naïve generation, and substantially improves classification for underrepresented emotion classes. However, our linguistic analysis reveals that synthetic text exhibits reduced vocabulary richness and fewer personal or temporally complex expressions than authentic posts. This work provides both a practical framework for responsible synthetic data generation and a critical perspective on its limitations, underscoring that the future of trustworthy AI depends on navigating the trade-offs between synthetic utility and real-world authenticity.
- Abstract(参考訳): ソーシャルメディアからの感情認識は、大衆の感情を理解するために重要であるが、APIコストとプラットフォーム制限のエスカレートにより、トレーニングデータへのアクセスは違法に高価になっている。
本稿では,Shpley Additive Explanations (SHAP) が LLM ベースの合成データ生成の原則的ガイダンスを提供する,解釈可能性誘導型フレームワークを提案する。
十分なシードデータを用いて、SHAP誘導アプローチは実際のデータ性能と一致し、ナビブ生成を著しく上回り、表現不足の感情クラスの分類を大幅に改善する。
しかし, 言語学的解析の結果, 合成テキストは語彙の豊かさを減らし, 個人的・時間的に複雑な表現が本物よりも少ないことが明らかとなった。
この研究は、責任ある合成データ生成のための実践的なフレームワークと、その限界に対する批判的な視点の両方を提供する。
関連論文リスト
- Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - The Synthetic Mirror -- Synthetic Data at the Age of Agentic AI [0.0]
合成データは人工的に生成され、実世界のデータを模倣または補足する。
本稿では,合成データ生成に起因したプライバシとポリシー作成の意義について考察する。
論文 参考訳(メタデータ) (2025-06-15T02:10:02Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Towards Realistic Synthetic User-Generated Content: A Scaffolding Approach to Generating Online Discussions [17.96479268328824]
ユーザ生成コンテンツの現実的で大規模な合成データセット作成の実現可能性について検討する。
本稿では,議論スレッドのコンパクトな表現のアイデアに基づく多段階生成プロセスを提案する。
論文 参考訳(メタデータ) (2024-08-15T18:43:50Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。