論文の概要: A Comparative Benchmark of a Moroccan Darija Toxicity Detection Model (Typica.ai) and Major LLM-Based Moderation APIs (OpenAI, Mistral, Anthropic)
- arxiv url: http://arxiv.org/abs/2505.04640v1
- Date: Mon, 05 May 2025 01:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.596289
- Title: A Comparative Benchmark of a Moroccan Darija Toxicity Detection Model (Typica.ai) and Major LLM-Based Moderation APIs (OpenAI, Mistral, Anthropic)
- Title(参考訳): モロッコのダリヤ毒性検出モデル(Typica.ai)とLLMに基づく主要モデレーションAPI(OpenAI, Mistral, Anthropic)の比較ベンチマーク
- Authors: Hicham Assoudi,
- Abstract要約: 本稿では,Typica.aiのカスタムモロッコDarija毒性検出モデルの性能を評価するベンチマークを提案する。
我々は、暗黙の侮辱、皮肉、文化的に特異的な攻撃など、文化的に根ざした有毒な内容に焦点を当てる。
OMCD_Typica.ai_Mixデータセットから得られたバランステストセットを用いて、精度、リコール、F1スコア、精度を報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a comparative benchmark evaluating the performance of Typica.ai's custom Moroccan Darija toxicity detection model against major LLM-based moderation APIs: OpenAI (omni-moderation-latest), Mistral (mistral-moderation-latest), and Anthropic Claude (claude-3-haiku-20240307). We focus on culturally grounded toxic content, including implicit insults, sarcasm, and culturally specific aggression often overlooked by general-purpose systems. Using a balanced test set derived from the OMCD_Typica.ai_Mix dataset, we report precision, recall, F1-score, and accuracy, offering insights into challenges and opportunities for moderation in underrepresented languages. Our results highlight Typica.ai's superior performance, underlining the importance of culturally adapted models for reliable content moderation.
- Abstract(参考訳): 本稿では,Typica.aiのカスタムモロッコダリヤ毒性検出モデルと,主要なLCMモデレーションAPIであるOpenAI (omni-moderation-latst), Mistral (mistral-moderation-latst), Anthropic Claude (claude-3-haiku-20240307)を比較した。
我々は、暗黙の侮辱、皮肉、そして汎用システムによってしばしば見落とされがちな文化的特異な攻撃を含む、文化的に根ざした有毒な内容に焦点を当てる。
OMCD_Typica.ai_Mixデータセットから得られたバランステストセットを用いて、精度、リコール、F1スコア、精度を報告する。
以上の結果から,Typica.aiの優れたパフォーマンスが強調され,信頼性のあるコンテンツモデレーションのための文化的適応モデルの重要性が浮き彫りになった。
関連論文リスト
- HeQ: a Large and Diverse Hebrew Reading Comprehension Benchmark [54.73504952691398]
我々は,抽出質問としてヘブライ語機械読解データセットの提供に着手した。
ヘブライ語の形態学的に豊かな性質はこの努力に挑戦している。
我々は,新しいガイドラインのセット,制御されたクラウドソーシングプロトコル,評価基準の改訂を考案した。
論文 参考訳(メタデータ) (2025-08-03T15:53:01Z) - Can Small-Scale Data Poisoning Exacerbate Dialect-Linked Biases in Large Language Models? [2.5316085118743423]
本研究は、方言の変化、特にアフリカ系アメリカ人英語(AAVE)と標準アメリカ英語(SAE)について検討する。
毒性データへの最小限の曝露でもAAVE入力の毒性は著しく上昇するが、SAEには影響を受けない。
これらの相違を更に評価するため,我々はGPT-4oをフェアネス監査機として使用し,有害なステレオタイプパターンをAAVE入力と不一致に同定した。
論文 参考訳(メタデータ) (2025-07-25T12:05:47Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation [1.2576388595811496]
本稿では,モデル性能推定における暗記の影響を低減する言語推論問題を生成するための枠組みを提案する。
このフレームワークを言語推論のための挑戦的なベンチマークであるlingOLY-TOOの開発に適用する。
論文 参考訳(メタデータ) (2025-03-04T19:57:47Z) - Sensitive Content Classification in Social Media: A Holistic Resource and Evaluation [15.355814393928707]
6つのカテゴリにまたがるソーシャルメディアコンテンツモデレーションに適した統合データセットを提案しました。
これには、矛盾する言語、暴言、性的明示的な材料、薬物関連コンテンツ、自傷行為、スパムが含まれる。
この新たなデータセットを微調整した大規模言語モデルでは,市販のモデルに比べて検出性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-11-29T16:44:02Z) - Leveraging Large Language Models and Topic Modeling for Toxicity Classification [2.1506858566021037]
コンテンツモデレーションのためのトピック・モデリング手法を用いて,アノテータの位置がデータセットに与える影響について検討した。
その結果,特定のトピックについてモデルを微調整すると,モデルのF1スコアが顕著に向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-26T20:47:24Z) - A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。
ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T17:46:18Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Improving the Faithfulness of Abstractive Summarization via Entity
Coverage Control [27.214742188672464]
エンティティカバレッジ制御(ECC)を用いたエンティティレベルの幻覚の治療法を提案する。
ECCはエンティティカバレッジの精度を計算し、トレーニング例ごとに対応する制御コードをプリペンドする。
提案手法は,教師付き微調整およびゼロショット設定において,より忠実かつ健全な抽象的要約をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-05T18:52:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。