論文の概要: Style Transfer as Bias Mitigation: Diffusion Models for Synthetic Mental Health Text for Arabic
- arxiv url: http://arxiv.org/abs/2601.14124v1
- Date: Tue, 20 Jan 2026 16:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.41113
- Title: Style Transfer as Bias Mitigation: Diffusion Models for Synthetic Mental Health Text for Arabic
- Title(参考訳): バイアス緩和としてのスタイル伝達:アラビア語合成メンタルヘルステキストの拡散モデル
- Authors: Saad Mankarious, Aya Zirikly,
- Abstract要約: 合成テキスト生成のための事前学習自由拡散に基づくアプローチを提案する。
本研究は,男性から女性への女性スタイルの移譲に着目した。
以上の結果から,拡散に基づくスタイル転送は,高エントロピー,セマンティックに忠実な合成データを生成することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Synthetic data offers a promising solution for mitigating data scarcity and demographic bias in mental health analysis, yet existing approaches largely rely on pretrained large language models (LLMs), which may suffer from limited output diversity and propagate biases inherited from their training data. In this work, we propose a pretraining-free diffusion-based approach for synthetic text generation that frames bias mitigation as a style transfer problem. Using the CARMA Arabic mental health corpus, which exhibits a substantial gender imbalance, we focus on male-to-female style transfer to augment underrepresented female-authored content. We construct five datasets capturing varying linguistic and semantic aspects of gender expression in Arabic and train separate diffusion models for each setting. Quantitative evaluations demonstrate consistently high semantic fidelity between source and generated text, alongside meaningful surface-level stylistic divergence, while qualitative analysis confirms linguistically plausible gender transformations. Our results show that diffusion-based style transfer can generate high-entropy, semantically faithful synthetic data without reliance on pretrained LLMs, providing an effective and flexible framework for mitigating gender bias in sensitive, low-resource mental health domains.
- Abstract(参考訳): 合成データは、メンタルヘルス分析におけるデータの不足と人口統計バイアスを緩和するための有望な解決策を提供するが、既存のアプローチは、トレーニングデータから受け継がれた出力の多様性と伝播バイアスに悩まされる可能性のある、事前訓練済みの大規模言語モデル(LLM)に大きく依存している。
本研究では, バイアス緩和をスタイル伝達問題とみなす合成テキスト生成のための, 事前学習自由拡散に基づくアプローチを提案する。
CARMA アラビアのメンタルヘルスコーパスは,男女間の男女間の男女間関係が著しく不均衡である。
アラビア語におけるジェンダー表現の言語的・意味的な側面が変化する5つのデータセットを構築し,それぞれに異なる拡散モデルを訓練する。
定量的評価は、意味のある表面レベルのスタイリスティックな相違とともに、ソースと生成されたテキスト間のセマンティックな忠実さを一貫して示し、質的な分析は言語学的に妥当な性別変換を裏付ける。
以上の結果から, 拡散型スタイル転送は, LLMに依存せず, 高エントロピー, セマンティックに忠実な合成データを生成できることが示唆された。
関連論文リスト
- Blind Men and the Elephant: Diverse Perspectives on Gender Stereotypes in Benchmark Datasets [12.798832545154271]
本稿では,内在型ステレオタイプベンチマークの不整合について検討する。
StereoSetとCrowS-Pairsをケーススタディとして,データ分布がベンチマーク結果に与える影響を検討した。
論文 参考訳(メタデータ) (2025-01-02T09:40:31Z) - Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
大規模言語モデル(LLM)は、しばしば、トレーニングデータに埋め込まれた社会的バイアスを継承し、増幅する。
性バイアスとは、特定の役割や特性と特定の性別の関連性である。
ジェンダー表現バイアスは、性別の異なる個人への参照の不平等な頻度である。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - Using Artificial French Data to Understand the Emergence of Gender Bias
in Transformer Language Models [5.22145960878624]
この研究は、神経モデルがジェンダーなどの単語の言語的性質や、その使用法を規定する規則をいかに発見するかという、あまり研究されていないトピックを探求するための最初のステップである。
本稿では,フランス語をベースとしたPCFGが生成した人工コーパスを用いて,トレーニングデータ中の性別分布を正確に制御し,モデルが正しく性別情報をキャプチャした条件を決定することを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:08:37Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Word Embeddings via Causal Inference: Gender Bias Reducing and Semantic
Information Preserving [3.114945725130788]
本稿では、因果推論の枠組みを利用して、ジェンダーバイアスを効果的に除去する手法を提案する。
総括実験により,提案手法は男女の偏りを解消する作業において,最先端の成果を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-12-09T19:57:22Z) - Improving Gender Fairness of Pre-Trained Language Models without
Catastrophic Forgetting [88.83117372793737]
元のトレーニングデータに情報を埋め込むことは、モデルの下流のパフォーマンスを大きなマージンで損なう可能性がある。
本稿では,GEnder Equality Prompt(GEEP)を提案する。
論文 参考訳(メタデータ) (2021-10-11T15:52:16Z) - Interpretable bias mitigation for textual data: Reducing gender bias in
patient notes while maintaining classification performance [0.11545092788508224]
2つの臨床ノートデータセットから性別付き言語を識別・除去する。
データ拡張による低~中レベルのバイアス除去のための健康状態分類タスクの最小劣化を示す。
本研究は,自然言語処理パイプラインにおけるバイアスを識別・低減するために,データ拡張を用いた解釈可能なアプローチを概説する。
論文 参考訳(メタデータ) (2021-03-10T03:09:30Z) - Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文 参考訳(メタデータ) (2020-11-26T21:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。