論文の概要: BERT-Beta: A Proactive Probabilistic Approach to Text Moderation
- arxiv url: http://arxiv.org/abs/2109.08805v1
- Date: Sat, 18 Sep 2021 02:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 12:23:51.885586
- Title: BERT-Beta: A Proactive Probabilistic Approach to Text Moderation
- Title(参考訳): BERT-Beta:テキストモデレーションに対する確率的確率論的アプローチ
- Authors: Fei Tan, Yifan Hu, Kevin Yen, Changwei Hu
- Abstract要約: テキストが有害なコメントを引き付ける傾向の程度を特徴付けるために,テキスト毒性の妥当性を示す新しい概念を提案する。
また,モデル決定を明確に伝達するための説明手法を提案する。
- 参考スコア(独自算出の注目度): 10.542906860939478
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Text moderation for user generated content, which helps to promote healthy
interaction among users, has been widely studied and many machine learning
models have been proposed. In this work, we explore an alternative perspective
by augmenting reactive reviews with proactive forecasting. Specifically, we
propose a new concept {\it text toxicity propensity} to characterize the extent
to which a text tends to attract toxic comments. Beta regression is then
introduced to do the probabilistic modeling, which is demonstrated to function
well in comprehensive experiments. We also propose an explanation method to
communicate the model decision clearly. Both propensity scoring and
interpretation benefit text moderation in a novel manner. Finally, the proposed
scaling mechanism for the linear model offers useful insights beyond this work.
- Abstract(参考訳): ユーザ間の健全なインタラクションを促進するためのユーザ生成コンテンツのテキストモデレーションが広く研究され,多くの機械学習モデルが提案されている。
本研究では,反応レビューを積極的に予測することで,新たな視点を探求する。
具体的には,テキストに有害なコメントが寄せられる程度を特徴付ける新しい概念「ittext toxicity propensity」を提案する。
ベータ回帰は確率的モデリングを行うために導入され、包括的な実験でうまく機能することが示されている。
また,モデル決定を明確化するための説明手法を提案する。
傾向スコアと解釈は、新しい方法でテキストモデレーションの恩恵を受ける。
最後に、線形モデルのスケーリングメカニズムの提案は、この研究以外の有用な洞察を提供する。
関連論文リスト
- Attacks against Abstractive Text Summarization Models through Lead Bias and Influence Functions [1.7863534204867277]
大規模言語モデルは、敵の摂動やデータ中毒攻撃に弱い。
本研究では,要約モデルに固有の鉛バイアスを生かして,新しいアプローチを明らかにする。
また, インフルエンス関数の革新的な適用法を導入し, データ中毒を発生させ, モデルの整合性を損なう。
論文 参考訳(メタデータ) (2024-10-26T00:35:15Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - Modeling Uncertainty in Personalized Emotion Prediction with Normalizing
Flows [6.32047610997385]
本研究では,条件付き正規化フローを用いて予測の不確かさを捉える新しい手法を提案する。
感情認識とヘイトスピーチを含む3つの主観的NLP課題に対して,本手法の有効性を検証した。
開発した手法によって得られた情報により,従来の手法を超越したハイブリッドモデルの構築が可能となった。
論文 参考訳(メタデータ) (2023-12-10T23:21:41Z) - Explaining Hate Speech Classification with Model Agnostic Methods [0.9990687944474738]
本研究の目的は、ヘイトスピーチ予測と、その決定を支援するためにシステムによって生成された説明とのギャップを埋めることである。
これは、まずテキストの分類を予測し、その後、ポストホック、モデル非依存、代理的解釈可能性アプローチを提供することによって達成されている。
論文 参考訳(メタデータ) (2023-05-30T19:52:56Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Improving Faithfulness in Abstractive Summarization with Contrast
Candidate Generation and Selection [54.38512834521367]
モデル非依存後処理技術としてのコントラスト候補生成と選択について検討する。
代替候補要約を生成して判別補正モデルを学習する。
このモデルを使用して、最終的な出力サマリーとして最適な候補を選択する。
論文 参考訳(メタデータ) (2021-04-19T05:39:24Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。