論文の概要: Text Detoxification: Data Efficiency, Semantic Preservation and Model Generalization
- arxiv url: http://arxiv.org/abs/2507.01050v2
- Date: Mon, 07 Jul 2025 07:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.451626
- Title: Text Detoxification: Data Efficiency, Semantic Preservation and Model Generalization
- Title(参考訳): テキストのデトックス化:データ効率、セマンティック保存、モデル一般化
- Authors: Jing Yu, Yibo Zhao, Jiapeng Zhu, Wenming Shao, Bo Pang, Zhao Zhang, Xiang Li,
- Abstract要約: ソーシャルメディア上の有害コンテンツの普及は、オンライン環境や公衆の会話に深刻な脅威をもたらす。
既存のアプローチは、強力なデトキシフィケーション性能、セマンティック保存、およびアウト・オブ・ディストリビューションデータを実現するのに苦労することが多い。
本稿では,データ効率,セマンティック保存,モデル一般化を協調的に最適化する2段階トレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.328207651816957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread dissemination of toxic content on social media poses a serious threat to both online environments and public discourse, highlighting the urgent need for detoxification methods that effectively remove toxicity while preserving the original semantics. However, existing approaches often struggle to simultaneously achieve strong detoxification performance, semantic preservation, and robustness to out-of-distribution data. Moreover, they typically rely on costly, manually annotated parallel corpora while showing poor data efficiency. To address these challenges, we propose a two-stage training framework that jointly optimizes for data efficiency, semantic preservation, and model generalization. We first perform supervised fine-tuning on a small set of high-quality, filtered parallel data to establish a strong initialization. Then, we leverage unlabeled toxic inputs and a custom-designed reward model to train the LLM using Group Relative Policy Optimization. Experimental results demonstrate that our method effectively mitigates the trade-offs faced by previous work, achieving state-of-the-art performance with improved generalization and significantly reduced dependence on annotated data. Our code is available at: https://github.com/allacnobug/Detoxification-of-Text.
- Abstract(参考訳): ソーシャルメディア上での有害なコンテンツの拡散は、オンライン環境と公衆の会話の両方に深刻な脅威をもたらし、本来の意味を保ちながら毒性を効果的に除去する解毒方法の緊急の必要性を強調している。
しかし、既存のアプローチは、ディストリビューションデータの強力なデトキシフィケーション性能、セマンティック保存、ロバスト性を同時に達成するのに苦労することが多い。
さらに、データ効率の低さを示しながら、手動で注釈付けされた並列コーパスに依存するのが一般的である。
これらの課題に対処するため、データ効率、セマンティック保存、モデル一般化を共同で最適化する2段階のトレーニングフレームワークを提案する。
まず、高品質なフィルタ並列データを用いて教師付き微調整を行い、強力な初期化を確立する。
そして、ラベルのない有毒な入力とカスタムデザインの報酬モデルを利用して、グループ相対ポリシー最適化を用いてLLMを訓練する。
実験結果から,本手法は従来の作業で直面するトレードオフを効果的に軽減し,一般化を向上し,注釈付きデータへの依存を著しく低減し,最先端の性能を達成できることが示唆された。
私たちのコードは、https://github.com/allacnobug/Detoxification-of-Text.comで利用可能です。
関連論文リスト
- Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [60.414548453838506]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - RefineX: Learning to Refine Pre-training Data at Scale from Expert-Guided Programs [76.3459242819381]
RefineXは、プログラムによる編集タスクを通じて、トレーニング済みデータの大規模かつ外科的な洗練を行うための新しいフレームワークである。
RefineXのコアとなる強みは、高品質で専門家が指導するエンドツーエンドの精錬結果を最小限の編集ベースの削除プログラムに蒸留することにある。
RefineXを複数のモデルスケールで事前学習し、生データ、フィルタリングデータ、または代替データでトレーニングされたモデルより一貫して優れています。
論文 参考訳(メタデータ) (2025-07-04T02:19:58Z) - Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models [7.566515311806724]
大規模言語モデル(LLM)が現実の環境でデプロイされるようになると、機密性、時代遅れ、あるいはプロプライエタリな情報を漏らさなくてはならなくなる。
既存の未学習の手法は、忘れと保持を規則化されたトレードオフとして定式化し、両方の目的を1つのスカラー化された損失に組み合わせる。
制約付き最適化問題として,LLMアンラーニングの新たな定式化を提案する。
論文 参考訳(メタデータ) (2025-06-05T17:55:23Z) - Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。
前方伝播中の毒性活性化パターンを動的に検出する。
その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文 参考訳(メタデータ) (2025-05-28T12:37:06Z) - Synthetic Data is an Elegant GIFT for Continual Vision-Language Models [52.343627275005026]
GIFTはVision-Language Modelsにおける破滅的な忘れを克服するための、新しい連続的な微調整手法である。
我々は、事前学習と下流タスクデータの両方を再現するために、事前学習した拡散モデルを用いる。
提案手法は,様々な設定において従来手法よりも常に優れていた。
論文 参考訳(メタデータ) (2025-03-06T09:09:18Z) - Soft-Label Integration for Robust Toxicity Classification [39.159343518702805]
この研究は、クラウドソースアノテーションとソフトラベル技術を統合する、新しい双方向最適化フレームワークを導入している。
GroupDROは、アウト・オブ・ディストリビューション(OOD)リスクに対する堅牢性を高めるために使用される。
実験の結果,提案手法は,平均および最悪のグループ精度において,既存のベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-18T22:36:03Z) - Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models [21.341749351654453]
大規模言語モデル(LLM)による有害なコンテンツの生成は、言語技術の安全なデプロイにおいて重要な課題である。
プロトタイプに基づくコントラッシブ・パープレキシティを目標とした微調整 LLM による暗黙的知識編集とテキスト生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-16T16:49:39Z) - Erasing Undesirable Influence in Diffusion Models [51.225365010401006]
拡散モデルは高品質な画像を生成するのに非常に効果的であるが、NSFW(職場では安全ではない)コンテンツの意図しない生成のようなリスクを引き起こす。
本研究では,データに関連付けられた不要な情報を取り除き,保存データに対する拡散モデルの実用性を維持するために設計されたアルゴリズムであるEraseDiffを紹介する。
論文 参考訳(メタデータ) (2024-01-11T09:30:36Z) - Goodtriever: Adaptive Toxicity Mitigation with Retrieval-augmented
Models [11.805944680474823]
Goodtrieverは、現在の最先端の毒性軽減と一致するフレキシブルな方法論である。
復号時間に検索ベースのアプローチを導入することで、Goodtrieverは毒性制御されたテキスト生成を可能にする。
論文 参考訳(メタデータ) (2023-10-11T15:30:35Z) - On Practical Aspects of Aggregation Defenses against Data Poisoning
Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。
データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。
ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文 参考訳(メタデータ) (2023-06-28T17:59:35Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Unified Detoxifying and Debiasing in Language Generation via
Inference-time Adaptive Optimization [32.50246008433889]
事前学習された言語モデル (PLM) は、かなり流動的なテキストを生成する能力により、様々な自然言語生成(NLG)タスクで繁栄している。
これらのモデルは、一般的に有害な言語や社会的偏見である訓練コーパスにおいて有害な内容を捕捉し、再現することが観察され、深刻な道徳的問題を提起する。
我々は,この2つの問題を出力空間の整合性として共同で定式化する UDDIA と呼ばれるデトキシ化とデバイアス化の枠組みを初めて提案する。
論文 参考訳(メタデータ) (2022-10-10T08:45:25Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Maximum-Entropy Adversarial Data Augmentation for Improved
Generalization and Robustness [21.630597505797073]
敵データ拡張のための新しい効果的な正則化項を提案する。
理論的には、最大エントロピーの定式化をもたらす情報ボトルネック原理から導出する。
我々の手法は、統計的に有意なマージンで、既存の最先端技術よりも一貫して優れています。
論文 参考訳(メタデータ) (2020-10-15T20:02:23Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。