Fugu-MT 論文翻訳(概要): RECAST: Interactive Auditing of Automatic Toxicity Detection Models

論文の概要: RECAST: Interactive Auditing of Automatic Toxicity Detection Models

arxiv url: http://arxiv.org/abs/2001.01819v2
Date: Wed, 1 Jul 2020 15:36:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 20:26:50.512846
Title: RECAST: Interactive Auditing of Automatic Toxicity Detection Models
Title（参考訳）: リキャスト:自動毒性検出モデルのインタラクティブな監査
Authors: Austin P. Wright, Omar Shaikh, Haekyu Park, Will Epperson, Muhammed Ahmed, Stephane Pinel, Diyi Yang, Duen Horng Chau
Abstract要約: 本稿では, 予測のための説明を可視化し, 検出された有毒な音声に対する代替語提供を行うことにより, 有害な検出モデルを調べるインタラクティブツールであるRECASTについて述べる。
参考スコア（独自算出の注目度）: 39.621867230707814
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As toxic language becomes nearly pervasive online, there has been increasing interest in leveraging the advancements in natural language processing (NLP), from very large transformer models to automatically detecting and removing toxic comments. Despite the fairness concerns, lack of adversarial robustness, and limited prediction explainability for deep learning systems, there is currently little work for auditing these systems and understanding how they work for both developers and users. We present our ongoing work, RECAST, an interactive tool for examining toxicity detection models by visualizing explanations for predictions and providing alternative wordings for detected toxic speech.
Abstract（参考訳）: 有害な言語がオンラインでほぼ普及するにつれて、非常に大きなトランスフォーマーモデルから有害なコメントの自動検出と削除まで、自然言語処理(nlp)の進歩を活用することへの関心が高まっている。公正な懸念、敵意の強固さの欠如、ディープラーニングシステムの予測説明可能性の制限にもかかわらず、現時点では、これらのシステムを監査し、開発者とユーザの両方でどのように機能するかを理解する作業はほとんどない。本稿では, 予測のための説明を可視化し, 検出された有毒な音声に対する代替語提供を行うことにより, 有害な検出モデルを調べるインタラクティブツールであるRECASTについて述べる。

関連論文リスト

Pragmatic Inference Chain (PIC) Improving LLMs' Reasoning of Authentic Implicit Toxic Language [10.295731340480417]
PIC(Pragmatic Inference Chain)は,認知科学と言語学の学際的知見に基づく新たなプロンプト手法である。 GPT-4o、Llama-3.1-70B-Instruct、DeepSeek-v2.5の成功率を大幅に向上させる。
論文参考訳（メタデータ） (2025-03-03T13:51:05Z)
Analyzing Toxicity in Open Source Software Communications Using Psycholinguistics and Moral Foundations Theory [5.03553492616371]
本稿では,オープンソースソフトウェア(OSS)における有害通信の自動検出のための機械学習によるアプローチについて検討する。我々は精神言語学のレキシコンとモラル・ファンデーションズ・理論を利用して、OSSコミュニケーションチャネルの2種類の毒性を分析し、コメントとコードレビューを発行する。道徳的価値を特徴として使うことは言語的手がかりよりも効果的であり、コードレビューデータ中の有害なインスタンスを67.50%、問題コメントを64.83%特定するF1尺度となる。
論文参考訳（メタデータ） (2024-12-17T17:52:00Z)
LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文参考訳（メタデータ） (2024-04-03T23:57:34Z)
Recourse for reclamation: Chatting with generative language models [2.877217169371665]
生成言語モデルにアルゴリズム・リコースの概念を拡張します。我々は,毒性フィルタリングのしきい値を動的に設定することで,希望する予測を実現する新しいメカニズムをユーザに提供する。提案手法の可能性を実証したパイロット実験を行った。
論文参考訳（メタデータ） (2024-03-21T15:14:25Z)
ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in Real-World User-AI Conversation [43.356758428820626]
ToxicChatは、オープンソースのチャットボットからの実際のユーザクエリに基づく、新しいベンチマークである。既存の毒性データセットに基づいてトレーニングされたモデルの体系的評価は、ToxicChatのこのユニークなドメインに適用した場合の欠点を示している。将来的には、ToxicChatは、ユーザとAIインタラクションのための安全で健全な環境を構築するためのさらなる進歩を促進する上で、貴重なリソースになり得る。
論文参考訳（メタデータ） (2023-10-26T13:35:41Z)
HuntGPT: Integrating Machine Learning-Based Anomaly Detection and Explainable AI with Large Language Models (LLMs) [0.09208007322096533]
我々はランダムフォレスト分類器を応用した特殊な侵入検知ダッシュボードであるHuntGPTを提案する。この論文は、Certified Information Security Manager (CISM) Practice Examsを通じて評価された、システムのアーキテクチャ、コンポーネント、技術的正確性について論じている。その結果、LLMによってサポートされ、XAIと統合された会話エージェントは、侵入検出において堅牢で説明可能な、実行可能なAIソリューションを提供することを示した。
論文参考訳（メタデータ） (2023-09-27T20:58:13Z)
Exploiting Multi-Object Relationships for Detecting Adversarial Attacks in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文参考訳（メタデータ） (2021-08-19T00:52:10Z)
RECAST: Enabling User Recourse and Interpretability of Toxicity Detection Models with Interactive Visualization [16.35961310670002]
本稿では,有害モデルの予測を可視化するインタラクティブなオープンソースWebツールであるRECASTについて紹介する。その結果,RECASTはモデルにより検出された毒性の低減に有効であることが判明した。このことは、毒性検出モデルがどのように機能し、機能するか、そしてそれらがオンライン談話の将来に与える影響について、議論を開いている。
論文参考訳（メタデータ） (2021-02-08T18:37:50Z)
Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文参考訳（メタデータ） (2021-01-29T22:03:17Z)
A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2020-05-01T21:22:08Z)
Adversarial vs behavioural-based defensive AI with joint, continual and active learning: automated evaluation of robustness to deception, poisoning and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文参考訳（メタデータ） (2020-01-13T13:54:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。