論文の概要: ToxCCIn: Toxic Content Classification with Interpretability
- arxiv url: http://arxiv.org/abs/2103.01328v1
- Date: Mon, 1 Mar 2021 22:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:48:12.552901
- Title: ToxCCIn: Toxic Content Classification with Interpretability
- Title(参考訳): ToxCCIn: 解釈可能な毒性コンテンツ分類
- Authors: Tong Xiang, Sean MacAvaney, Eugene Yang, Nazli Goharian
- Abstract要約: ソーシャルメディア上での攻撃言語や毒性検出などのタスクには説明が重要です。
単純かつ強力な仮定に基づき,トランスモデルの解釈性を改善する手法を提案する。
このアプローチは,ロジスティック回帰分析によって提供されるものの品質を超える説明を生成できる。
- 参考スコア(独自算出の注目度): 16.153683223016973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent successes of transformer-based models in terms of
effectiveness on a variety of tasks, their decisions often remain opaque to
humans. Explanations are particularly important for tasks like offensive
language or toxicity detection on social media because a manual appeal process
is often in place to dispute automatically flagged content. In this work, we
propose a technique to improve the interpretability of these models, based on a
simple and powerful assumption: a post is at least as toxic as its most toxic
span. We incorporate this assumption into transformer models by scoring a post
based on the maximum toxicity of its spans and augmenting the training process
to identify correct spans. We find this approach effective and can produce
explanations that exceed the quality of those provided by Logistic Regression
analysis (often regarded as a highly-interpretable model), according to a human
study.
- Abstract(参考訳): 近年、トランスフォーマーベースのモデルが様々なタスクの有効性で成功しているにもかかわらず、その決定はしばしば人間にとって不透明なままである。
ソーシャルメディア上での攻撃的言語や毒性の検出といったタスクでは、手動によるアピールプロセスが自動的にフラグ付けされたコンテンツに反することが多いため、説明は特に重要である。
本研究では、ポストが最も有毒なスパンと同じくらい有毒であるという単純かつ強力な仮定に基づいて、これらのモデルの解釈可能性を改善する技術を提案する。
この仮定をトランスフォーマーモデルに取り入れ,スパンの最大毒性に基づいてポストをスコア付けし,適切なスパンを識別するためのトレーニングプロセスを強化した。
人間の研究によれば、このアプローチは効果的であり、ロジスティック回帰分析(しばしば高度に解釈可能なモデルと見なされる)が提供するものよりも優れた説明を生み出すことができる。
関連論文リスト
- Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - Goodtriever: Adaptive Toxicity Mitigation with Retrieval-augmented
Models [11.805944680474823]
Goodtrieverは、現在の最先端の毒性軽減と一致するフレキシブルな方法論である。
復号時間に検索ベースのアプローチを導入することで、Goodtrieverは毒性制御されたテキスト生成を可能にする。
論文 参考訳(メタデータ) (2023-10-11T15:30:35Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - Unified Detoxifying and Debiasing in Language Generation via
Inference-time Adaptive Optimization [32.50246008433889]
事前学習された言語モデル (PLM) は、かなり流動的なテキストを生成する能力により、様々な自然言語生成(NLG)タスクで繁栄している。
これらのモデルは、一般的に有害な言語や社会的偏見である訓練コーパスにおいて有害な内容を捕捉し、再現することが観察され、深刻な道徳的問題を提起する。
我々は,この2つの問題を出力空間の整合性として共同で定式化する UDDIA と呼ばれるデトキシ化とデバイアス化の枠組みを初めて提案する。
論文 参考訳(メタデータ) (2022-10-10T08:45:25Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Reward Modeling for Mitigating Toxicity in Transformer-based Language
Models [0.0]
トランスフォーマーベースの言語モデルでは、流動的なテキストを生成し、さまざまな自然言語生成タスクに効率よく適応することができる。
大規模未ラベルのウェブテキストコーパスで事前訓練された言語モデルは、有害な内容の変性や社会的偏見の振る舞いに悩まされていることが示されている。
言語モデルにおける毒性を緩和する強化学習に基づく手法であるReinforce-Detoxifyを提案する。
論文 参考訳(メタデータ) (2022-02-19T19:26:22Z) - Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations [15.152559543181523]
本研究は,サイバーバブル検出における敵行動と増強の効果について,初めて検討したものである。
モデル非依存の語彙置換が性能を著しく損なうことを示す。
毒性に関する先行研究で提案された増強は効果が低いことが証明された。
論文 参考訳(メタデータ) (2022-01-17T12:48:27Z) - UoB at SemEval-2021 Task 5: Extending Pre-Trained Language Models to
Include Task and Domain-Specific Information for Toxic Span Prediction [0.8376091455761259]
Toxicityはソーシャルメディアで広く普及しており、オンラインコミュニティの健康に大きな脅威をもたらしている。
近年,多くのNLPタスクにおいて最先端の成果を達成している事前学習型言語モデルの導入により,自然言語処理へのアプローチ方法が変化している。
論文 参考訳(メタデータ) (2021-10-07T18:29:06Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。