論文の概要: System Demo: Tool and Infrastructure for Offensive Language Error
Analysis (OLEA) in English
- arxiv url: http://arxiv.org/abs/2210.16398v1
- Date: Fri, 28 Oct 2022 20:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:02:19.610214
- Title: System Demo: Tool and Infrastructure for Offensive Language Error
Analysis (OLEA) in English
- Title(参考訳): システムデモ:英語の攻撃的言語エラー分析(OLEA)のためのツールと基盤
- Authors: Marie Grace, Xajavion "Jay" Seabrum, Dananjay Srinivas, Alexis Palmer
- Abstract要約: OLEAはオープンソースのPythonライブラリで、英語で攻撃的な言語を検出するコンテキストにおいて、エラー分析のための使いやすいツールを提供する。
OLEAはまた、新しいデータセットを再配布するためのインフラストラクチャも提供する。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The automatic detection of offensive language is a pressing societal need.
Many systems perform well on explicit offensive language but struggle to detect
more complex, nuanced, or implicit cases of offensive and hateful language.
OLEA is an open-source Python library that provides easy-to-use tools for error
analysis in the context of detecting offensive language in English. OLEA also
provides an infrastructure for re-distribution of new datasets and analysis
methods requiring very little coding.
- Abstract(参考訳): 攻撃的言語の自動検出は社会的ニーズを圧迫する。
多くのシステムは、明示的な攻撃的言語でうまく機能するが、より複雑、ニュアンス的、暗黙的な攻撃的、憎悪的な言語の事例を検出するのに苦労する。
OLEAはオープンソースのPythonライブラリで、英語で攻撃的な言語を検出するコンテキストにおいて、エラー分析のための使いやすいツールを提供する。
oleaは、新しいデータセットと分析メソッドを再配布するためのインフラも提供しています。
関連論文リスト
- Towards Generalized Offensive Language Identification [13.261770797304777]
本稿では,新たな一般化ベンチマークを用いて,攻撃的言語検出モデルとデータセットの一般化可能性を実証的に評価する。
我々の発見は、堅牢な実世界の攻撃的言語検出システムの構築に有用である。
論文 参考訳(メタデータ) (2024-07-26T13:50:22Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - A Hard Nut to Crack: Idiom Detection with Conversational Large Language Models [2.02990044704201]
IdioTSは,言語専門家が言語モデル(LLM)の文レベルでの表現型言語処理能力を評価するために設計した新しいデータセットである。
英文中の慣用表現を検知してLLMを誘導するイディオム検出タスクに基づく包括的評価手法を提案する。
結果の徹底的な自動的手動評価と広範囲な誤差解析を行う。
論文 参考訳(メタデータ) (2024-05-17T07:08:13Z) - A comprehensive cross-language framework for harmful content detection
with the aid of sentiment analysis [0.356008609689971]
この研究は、初めて、どんな言語にも適応可能な詳細なフレームワークを紹介します。
フレームワークの重要なコンポーネントは、汎用的で詳細なアノテーションガイドラインの開発である。
感情分析の統合は、有害な言語検出を強化する新しいアプローチである。
論文 参考訳(メタデータ) (2024-03-02T17:13:47Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z) - Offensive Language Identification in Greek [17.38318315623124]
本稿では,攻撃的言語識別のためのギリシャ初の注釈付きデータセットであるOGTDについて述べる。
OGTDは、Twitterから4,779件の投稿が攻撃的であり、攻撃的ではないという手動の注釈付きデータセットである。
データセットの詳細な説明とともに、このデータに基づいてトレーニングおよびテストされたいくつかの計算モデルを評価する。
論文 参考訳(メタデータ) (2020-03-16T22:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。