Fugu-MT 論文翻訳(概要): System Demo: Tool and Infrastructure for Offensive Language Error Analysis (OLEA) in English

論文の概要: System Demo: Tool and Infrastructure for Offensive Language Error Analysis (OLEA) in English

arxiv url: http://arxiv.org/abs/2210.16398v1
Date: Fri, 28 Oct 2022 20:38:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-01 15:02:19.610214
Title: System Demo: Tool and Infrastructure for Offensive Language Error Analysis (OLEA) in English
Title（参考訳）: システムデモ:英語の攻撃的言語エラー分析(OLEA)のためのツールと基盤
Authors: Marie Grace, Xajavion "Jay" Seabrum, Dananjay Srinivas, Alexis Palmer
Abstract要約: OLEAはオープンソースのPythonライブラリで、英語で攻撃的な言語を検出するコンテキストにおいて、エラー分析のための使いやすいツールを提供する。 OLEAはまた、新しいデータセットを再配布するためのインフラストラクチャも提供する。
参考スコア（独自算出の注目度）: 1.7205106391379026
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The automatic detection of offensive language is a pressing societal need. Many systems perform well on explicit offensive language but struggle to detect more complex, nuanced, or implicit cases of offensive and hateful language. OLEA is an open-source Python library that provides easy-to-use tools for error analysis in the context of detecting offensive language in English. OLEA also provides an infrastructure for re-distribution of new datasets and analysis methods requiring very little coding.
Abstract（参考訳）: 攻撃的言語の自動検出は社会的ニーズを圧迫する。多くのシステムは、明示的な攻撃的言語でうまく機能するが、より複雑、ニュアンス的、暗黙的な攻撃的、憎悪的な言語の事例を検出するのに苦労する。 OLEAはオープンソースのPythonライブラリで、英語で攻撃的な言語を検出するコンテキストにおいて、エラー分析のための使いやすいツールを提供する。 oleaは、新しいデータセットと分析メソッドを再配布するためのインフラも提供しています。

関連論文リスト

Offensive Language Detection on Social Media Using XLNet [0.0]
一般化された自己回帰事前学習手法であるXLNetに基づく自動攻撃言語検出モデルを提案し,その性能をBERT(Bigressive Representations from Transformers)と比較した。実験の結果,XLNet は攻撃内容の検出や犯罪の種類分類において BERT よりも優れており,BERT は攻撃対象の特定において BERT の方が若干優れていた。これらの知見は、ソーシャルメディアプラットフォーム上で攻撃的言語を検出する堅牢なシステムを構築するために、トランスファーラーニングとXLNetベースのアーキテクチャの可能性を強調している。
論文参考訳（メタデータ） (2025-06-26T22:37:35Z)
Creating and Evaluating Code-Mixed Nepali-English and Telugu-English Datasets for Abusive Language Detection Using Traditional and Deep Learning Models [1.835004446596942]
我々は,2千のテルグ語と5つのネパール語と英語のコードミキシングされたコメントからなる,手動で注釈付けされた新しいデータセットを紹介した。データセットは厳格な事前処理を経て、複数の機械学習(ML)、ディープラーニング(DL)、大規模言語モデル(LLM)で評価される。本研究は,コード混在環境における乱用言語検出の課題について,重要な知見を提供するものである。
論文参考訳（メタデータ） (2025-04-23T11:29:10Z)
Think Outside the Data: Colonial Biases and Systemic Issues in Automated Moderation Pipelines for Low-Resource Languages [13.011117871938561]
AIによるモデレーションシステムは、Global Southで話されている低リソース言語と競合する。調査の結果,データ不足に加えて,IT企業によるユーザデータの独占といった社会的政治的要因が,歴史的不平等を悪化させることが明らかとなった。これらの制限は、単に「データ不足」によって引き起こされる技術的なギャップであるだけでなく、非西洋語の植民地的抑圧に根ざした構造的不平等を反映している、と我々は主張する。
論文参考訳（メタデータ） (2025-01-23T17:01:53Z)
Towards Generalized Offensive Language Identification [13.261770797304777]
本稿では,新たな一般化ベンチマークを用いて,攻撃的言語検出モデルとデータセットの一般化可能性を実証的に評価する。我々の発見は、堅牢な実世界の攻撃的言語検出システムの構築に有用である。
論文参考訳（メタデータ） (2024-07-26T13:50:22Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
A Hard Nut to Crack: Idiom Detection with Conversational Large Language Models [2.02990044704201]
IdioTSは,言語専門家が言語モデル(LLM)の文レベルでの表現型言語処理能力を評価するために設計した新しいデータセットである。英文中の慣用表現を検知してLLMを誘導するイディオム検出タスクに基づく包括的評価手法を提案する。結果の徹底的な自動的手動評価と広範囲な誤差解析を行う。
論文参考訳（メタデータ） (2024-05-17T07:08:13Z)
A comprehensive cross-language framework for harmful content detection with the aid of sentiment analysis [0.356008609689971]
この研究は、初めて、どんな言語にも適応可能な詳細なフレームワークを紹介します。フレームワークの重要なコンポーネントは、汎用的で詳細なアノテーションガイドラインの開発である。感情分析の統合は、有害な言語検出を強化する新しいアプローチである。
論文参考訳（メタデータ） (2024-03-02T17:13:47Z)
DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文参考訳（メタデータ） (2024-01-04T11:27:48Z)
CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。 CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文参考訳（メタデータ） (2022-11-04T12:56:12Z)
COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文参考訳（メタデータ） (2022-01-16T11:47:23Z)
Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文参考訳（メタデータ） (2022-01-15T20:48:14Z)
Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文参考訳（メタデータ） (2020-04-28T11:27:24Z)
Offensive Language Identification in Greek [17.38318315623124]
本稿では,攻撃的言語識別のためのギリシャ初の注釈付きデータセットであるOGTDについて述べる。 OGTDは、Twitterから4,779件の投稿が攻撃的であり、攻撃的ではないという手動の注釈付きデータセットである。データセットの詳細な説明とともに、このデータに基づいてトレーニングおよびテストされたいくつかの計算モデルを評価する。
論文参考訳（メタデータ） (2020-03-16T22:47:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。