論文の概要: Testing Hateful Speeches against Policies
- arxiv url: http://arxiv.org/abs/2307.12418v1
- Date: Sun, 23 Jul 2023 20:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 16:09:25.495658
- Title: Testing Hateful Speeches against Policies
- Title(参考訳): ポリシーに対するヘイトなスピーチをテストする
- Authors: Jiangrui Zheng, Xueqing Liu, Girish Budhrani, Wei Yang, Ravishka
Rathnasuriya
- Abstract要約: 本稿では、AIとディープニューラルネットワークベースのシステムがルールベースの要件/政策に対してどのように振る舞うかを検討する。
特に、AIベースのコンテンツモデレーションソフトウェアをコンテンツモデレーションポリシーに対してチェックするケーススタディに焦点を当てる。
- 参考スコア(独自算出の注目度): 5.368078580153659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the recent years, many software systems have adopted AI techniques,
especially deep learning techniques. Due to their black-box nature, AI-based
systems brought challenges to traceability, because AI system behaviors are
based on models and data, whereas the requirements or policies are rules in the
form of natural or programming language. To the best of our knowledge, there is
a limited amount of studies on how AI and deep neural network-based systems
behave against rule-based requirements/policies. This experience paper examines
deep neural network behaviors against rule-based requirements described in
natural language policies. In particular, we focus on a case study to check
AI-based content moderation software against content moderation policies.
First, using crowdsourcing, we collect natural language test cases which match
each moderation policy, we name this dataset HateModerate; second, using the
test cases in HateModerate, we test the failure rates of state-of-the-art hate
speech detection software, and we find that these models have high failure
rates for certain policies; finally, since manual labeling is costly, we
further proposed an automated approach to augument HateModerate by finetuning
OpenAI's large language models to automatically match new examples to policies.
The dataset and code of this work can be found on our anonymous website:
\url{https://sites.google.com/view/content-moderation-project}.
- Abstract(参考訳): 近年、多くのソフトウェアシステムがAI技術、特にディープラーニング技術を採用しています。
そのブラックボックスの性質から、aiベースのシステムはトレーサビリティに課題をもたらした。aiシステムの振る舞いはモデルとデータに基づいているのに対して、要件やポリシーは自然言語やプログラミング言語の形式で規則になっているからだ。
私たちの知る限りでは、AIとディープニューラルネットワークベースのシステムは、ルールベースの要件/政策に対してどのように振る舞うか、という研究は限られています。
本稿では、自然言語ポリシーに記述された規則に基づく要求に対する深いニューラルネットワークの挙動について検討する。
特に、AIベースのコンテンツモデレーションソフトウェアをコンテンツモデレーションポリシーに対してチェックするケーススタディに焦点を当てる。
First, using crowdsourcing, we collect natural language test cases which match each moderation policy, we name this dataset HateModerate; second, using the test cases in HateModerate, we test the failure rates of state-of-the-art hate speech detection software, and we find that these models have high failure rates for certain policies; finally, since manual labeling is costly, we further proposed an automated approach to augument HateModerate by finetuning OpenAI's large language models to automatically match new examples to policies.
この作業のデータセットとコードは、匿名のwebサイトにある: \url{https://sites.google.com/view/content-moderation-project}。
関連論文リスト
- National Origin Discrimination in Deep-learning-powered Automated Resume
Screening [3.251347385432286]
多くの企業や組織は、採用プロセスを支援するために、ある種のAI対応のオートマットツールを使い始めています。
AIシステムの根底にあるバイアスによって、候補者に対する不公平な扱いが懸念されている。
本研究では,近年の技術革新である深層学習手法について検討し,自動再開検診への応用に焦点をあてた。
論文 参考訳(メタデータ) (2023-07-13T01:35:29Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data [48.7576911714538]
異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
論文 参考訳(メタデータ) (2022-07-01T15:23:23Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - Programmatic Policy Extraction by Iterative Local Search [0.15229257192293197]
本稿では,事前学習したニューラルポリシーからプログラムポリシーを抽出するための,単純かつ直接的なアプローチを提案する。
手作りのエキスパートポリシーと学習されたニューラルポリシーを使用してトレーニングを行うと、本手法はオリジナルとほぼ同等に機能する単純かつ解釈可能なポリシーを発見する。
論文 参考訳(メタデータ) (2022-01-18T10:39:40Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Next Wave Artificial Intelligence: Robust, Explainable, Adaptable,
Ethical, and Accountable [5.4138734778206]
ディープニューラルネットワークはコンピュータビジョン、音声認識、言語処理、ゲームプレイング、ロボット工学において多くの成功と新機能をもたらしている。
関連する制限は、今日のAIシステムの中で最も成功した場合でも脆さに苦しむことです。
AIシステムは、トレーニングデータから性別、人種、その他の要因に基づくバイアスを吸収し、その後の意思決定におけるバイアスをさらに大きくすることができる。
論文 参考訳(メタデータ) (2020-12-11T00:50:09Z) - Bias in Multimodal AI: Testbed for Fair Automatic Recruitment [73.85525896663371]
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
我々は、性別や人種の偏りを意識的に評価したマルチモーダルな合成プロファイルを用いて、自動求人アルゴリズムを訓練する。
我々の方法論と結果は、一般により公平なAIベースのツール、特により公平な自動採用システムを生成する方法を示している。
論文 参考訳(メタデータ) (2020-04-15T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。