論文の概要: On the Challenges of Using Black-Box APIs for Toxicity Evaluation in
Research
- arxiv url: http://arxiv.org/abs/2304.12397v1
- Date: Mon, 24 Apr 2023 19:11:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 22:53:50.241160
- Title: On the Challenges of Using Black-Box APIs for Toxicity Evaluation in
Research
- Title(参考訳): 研究における毒性評価のためのブラックボックスAPI利用の課題
- Authors: Luiza Pozzobon, Beyza Ermis, Patrick Lewis, Sara Hooker
- Abstract要約: 毒性を検出するためのブラックボックスの商用APIは静的ではないが、意図しない弱点やバイアスに対処するためにしばしば再訓練される。
本研究は, 毒性抑制を目的としたモデルと手法の相対的メリットを比較検討した。
- 参考スコア(独自算出の注目度): 9.014929555228916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perception of toxicity evolves over time and often differs between
geographies and cultural backgrounds. Similarly, black-box commercially
available APIs for detecting toxicity, such as the Perspective API, are not
static, but frequently retrained to address any unattended weaknesses and
biases. We evaluate the implications of these changes on the reproducibility of
findings that compare the relative merits of models and methods that aim to
curb toxicity. Our findings suggest that research that relied on inherited
automatic toxicity scores to compare models and techniques may have resulted in
inaccurate findings. Rescoring all models from HELM, a widely respected living
benchmark, for toxicity with the recent version of the API led to a different
ranking of widely used foundation models. We suggest caution in applying
apples-to-apples comparisons between studies and lay recommendations for a more
structured approach to evaluating toxicity over time. Code and data are
available at https://github.com/for-ai/black-box-api-challenges.
- Abstract(参考訳): 毒性の知覚は時間とともに進化し、地理と文化の背景とはしばしば異なる。
同様に、パースペクティブAPIのような毒性を検出するブラックボックスの商用APIは静的ではないが、意図しない弱点やバイアスに対処するために頻繁に再訓練される。
本研究は,これらの変化が,毒性抑制を目的としたモデルと手法の相対的メリットと比較した結果の再現性に与える影響を評価する。
モデルと手法を比較するための遺伝毒性スコアに依存する研究が不正確な結果をもたらした可能性が示唆された。
広く尊敬されている生きたベンチマークであるHELMのすべてのモデルを、最新バージョンのAPIと毒性のために再現することで、広く使用されている基盤モデルの異なるランク付けにつながった。
本研究では, リンゴとアプライズの比較を研究に適用し, 時間とともに毒性を評価するためのより構造化されたアプローチを提案する。
コードとデータはhttps://github.com/for-ai/black-box-api-challengesで入手できる。
関連論文リスト
- Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Harmful algal bloom forecasting. A comparison between stream and batch
learning [0.7067443325368975]
有害なアルガルブルーム(HAB)は公衆衛生と貝類産業にリスクをもたらす。
本研究では,有毒なジノフラゲレートの細胞数を予測する機械学習ワークフローを開発した。
モデルDoMEは最も効果的で解釈可能な予測器として登場し、他のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-02-20T15:01:11Z) - Goodtriever: Adaptive Toxicity Mitigation with Retrieval-augmented
Models [11.805944680474823]
Goodtrieverは、現在の最先端の毒性軽減と一致するフレキシブルな方法論である。
復号時間に検索ベースのアプローチを導入することで、Goodtrieverは毒性制御されたテキスト生成を可能にする。
論文 参考訳(メタデータ) (2023-10-11T15:30:35Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Benchmarking common uncertainty estimation methods with
histopathological images under domain shift and label noise [62.997667081978825]
リスクの高い環境では、深層学習モデルは不確実性を判断し、誤分類の可能性がかなり高い場合に入力を拒否しなければなりません。
我々は,全スライド画像の分類において,最もよく使われている不確実性と頑健さの厳密な評価を行う。
我々は一般的に,手法のアンサンブルが,ドメインシフトやラベルノイズに対するロバスト性の向上とともに,より良い不確実性評価につながることを観察する。
論文 参考訳(メタデータ) (2023-01-03T11:34:36Z) - Which one is more toxic? Findings from Jigsaw Rate Severity of Toxic
Comments [0.966840768820136]
本稿では,Jigsawによる毒性度測定データセットを用いて,異なるトランスフォーマーと従来の機械学習モデルの比較評価を行った。
さらに、説明可能性分析を用いたモデル予測の問題点について述べる。
論文 参考訳(メタデータ) (2022-06-27T13:20:24Z) - Fake It Till You Make It: Near-Distribution Novelty Detection by
Score-Based Generative Models [54.182955830194445]
既存のモデルは、いわゆる"近く分布"設定で失敗するか、劇的な低下に直面します。
本稿では, スコアに基づく生成モデルを用いて, 合成近分布異常データを生成することを提案する。
本手法は,9つのノベルティ検出ベンチマークにおいて,近分布ノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。
論文 参考訳(メタデータ) (2022-05-28T02:02:53Z) - The Concordance Index decomposition: A measure for a deeper
understanding of survival prediction models [3.186455928607442]
Concordance Index (C-index) は、予測モデルの性能を評価するためにサバイバル分析で一般的に用いられる指標である。
そこで本研究では,C-インデックスを2種類の重み付き調和平均値に分解する手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T23:50:47Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。