論文の概要: Text Detoxification: Data Efficiency, Semantic Preservation and Model Generalization
- arxiv url: http://arxiv.org/abs/2507.01050v1
- Date: Mon, 23 Jun 2025 05:48:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.797664
- Title: Text Detoxification: Data Efficiency, Semantic Preservation and Model Generalization
- Title(参考訳): テキストのデトックス化:データ効率、セマンティック保存、モデル一般化
- Authors: Jing Yu, Yibo Zhao, Jiapeng Zhu, Wenming Shao, Bo Pang, Zhao Zhang, Xiang Li,
- Abstract要約: ソーシャルメディア上の有害コンテンツの普及は、オンライン環境と公衆の会話の両方に深刻な脅威をもたらす。
既存のアプローチは、強力なデトキシフィケーション性能、セマンティック保存、およびアウト・オブ・ディストリビューションデータを実現するのに苦労することが多い。
本稿では,データ効率,セマンティック保存,モデル一般化を協調的に最適化する2段階トレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.328207651816957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread dissemination of toxic content on social media poses a serious threat to both online environments and public discourse, highlighting the urgent need for detoxification methods that effectively remove toxicity while preserving the original semantics. However, existing approaches often struggle to simultaneously achieve strong detoxification performance, semantic preservation, and robustness to out-of-distribution data. Moreover, they typically rely on costly, manually annotated parallel corpora while showing poor data efficiency. To address these challenges, we propose a two-stage training framework that jointly optimizes for data efficiency, semantic preservation, and model generalization. We first perform supervised fine-tuning on a small set of high-quality, filtered parallel data to establish a strong initialization. Then, we leverage unlabeled toxic inputs and a custom-designed reward model to train the LLM using Group Relative Policy Optimization. Experimental results demonstrate that our method effectively mitigates the trade-offs faced by previous work, achieving state-of-the-art performance with improved generalization and significantly reduced dependence on annotated data. Our code is available at: https://anonymous.4open.science/r/Detoxification-of-Text-725F/
- Abstract(参考訳): ソーシャルメディア上での有害なコンテンツの拡散は、オンライン環境と公衆の会話の両方に深刻な脅威をもたらし、本来の意味を保ちながら毒性を効果的に除去する解毒方法の緊急の必要性を強調している。
しかし、既存のアプローチは、ディストリビューションデータの強力なデトキシフィケーション性能、セマンティック保存、ロバスト性を同時に達成するのに苦労することが多い。
さらに、データ効率の低さを示しながら、手動で注釈付けされた並列コーパスに依存するのが一般的である。
これらの課題に対処するため、データ効率、セマンティック保存、モデル一般化を共同で最適化する2段階のトレーニングフレームワークを提案する。
まず、高品質なフィルタ並列データを用いて教師付き微調整を行い、強力な初期化を確立する。
そして、ラベルのない有毒な入力とカスタムデザインの報酬モデルを利用して、グループ相対ポリシー最適化を用いてLLMを訓練する。
実験結果から,本手法は従来の作業で直面するトレードオフを効果的に軽減し,一般化を向上し,注釈付きデータへの依存を著しく低減し,最先端の性能を達成できることが示唆された。
私たちのコードは、https://anonymous.4open.science/r/Detoxification-of-Text-725F/で利用可能です。
関連論文リスト
- Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。
前方伝播中の毒性活性化パターンを動的に検出する。
その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文 参考訳(メタデータ) (2025-05-28T12:37:06Z) - Synthetic Data is an Elegant GIFT for Continual Vision-Language Models [52.343627275005026]
GIFTはVision-Language Modelsにおける破滅的な忘れを克服するための、新しい連続的な微調整手法である。
我々は、事前学習と下流タスクデータの両方を再現するために、事前学習した拡散モデルを用いる。
提案手法は,様々な設定において従来手法よりも常に優れていた。
論文 参考訳(メタデータ) (2025-03-06T09:09:18Z) - Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models [21.341749351654453]
大規模言語モデル(LLM)による有害なコンテンツの生成は、言語技術の安全なデプロイにおいて重要な課題である。
プロトタイプに基づくコントラッシブ・パープレキシティを目標とした微調整 LLM による暗黙的知識編集とテキスト生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-16T16:49:39Z) - Erasing Undesirable Influence in Diffusion Models [51.225365010401006]
拡散モデルは高品質な画像を生成するのに非常に効果的であるが、NSFW(職場では安全ではない)コンテンツの意図しない生成のようなリスクを引き起こす。
本研究では,データに関連付けられた不要な情報を取り除き,保存データに対する拡散モデルの実用性を維持するために設計されたアルゴリズムであるEraseDiffを紹介する。
論文 参考訳(メタデータ) (2024-01-11T09:30:36Z) - Goodtriever: Adaptive Toxicity Mitigation with Retrieval-augmented
Models [11.805944680474823]
Goodtrieverは、現在の最先端の毒性軽減と一致するフレキシブルな方法論である。
復号時間に検索ベースのアプローチを導入することで、Goodtrieverは毒性制御されたテキスト生成を可能にする。
論文 参考訳(メタデータ) (2023-10-11T15:30:35Z) - On Practical Aspects of Aggregation Defenses against Data Poisoning
Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。
データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。
ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文 参考訳(メタデータ) (2023-06-28T17:59:35Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Unified Detoxifying and Debiasing in Language Generation via
Inference-time Adaptive Optimization [32.50246008433889]
事前学習された言語モデル (PLM) は、かなり流動的なテキストを生成する能力により、様々な自然言語生成(NLG)タスクで繁栄している。
これらのモデルは、一般的に有害な言語や社会的偏見である訓練コーパスにおいて有害な内容を捕捉し、再現することが観察され、深刻な道徳的問題を提起する。
我々は,この2つの問題を出力空間の整合性として共同で定式化する UDDIA と呼ばれるデトキシ化とデバイアス化の枠組みを初めて提案する。
論文 参考訳(メタデータ) (2022-10-10T08:45:25Z) - Maximum-Entropy Adversarial Data Augmentation for Improved
Generalization and Robustness [21.630597505797073]
敵データ拡張のための新しい効果的な正則化項を提案する。
理論的には、最大エントロピーの定式化をもたらす情報ボトルネック原理から導出する。
我々の手法は、統計的に有意なマージンで、既存の最先端技術よりも一貫して優れています。
論文 参考訳(メタデータ) (2020-10-15T20:02:23Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。