論文の概要: Bielik Guard: Efficient Polish Language Safety Classifiers for LLM Content Moderation
- arxiv url: http://arxiv.org/abs/2602.07954v2
- Date: Wed, 11 Feb 2026 13:48:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:20.025239
- Title: Bielik Guard: Efficient Polish Language Safety Classifiers for LLM Content Moderation
- Title(参考訳): Bielik Guard: LLMコンテンツモデレーションのための効率的なポーランド語安全分類器
- Authors: Krzysztof Wróbel, Jan Maria Kowalski, Jerzy Surma, Igor Ciuciura, Maciej Szymański,
- Abstract要約: ビエリク・ガード(英語: Bielik Guard)は、ポーランド語の安全分類法である。
ポーランドの6,885のテキストからなるコミュニティアノテーション付きデータセットに基づいて、これらのモデルは、Hate/Aggression、Vulgarities、Sexual Content、Crith、Self-Harmという5つの安全カテゴリのコンテンツを分類する。
- 参考スコア(独自算出の注目度): 0.4349640169711269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) become increasingly deployed in Polish language applications, the need for efficient and accurate content safety classifiers has become paramount. We present Bielik Guard, a family of compact Polish language safety classifiers comprising two model variants: a 0.1B parameter model based on MMLW-RoBERTa-base and a 0.5B parameter model based on PKOBP/polish-roberta-8k. Fine-tuned on a community-annotated dataset of 6,885 Polish texts, these models classify content across five safety categories: Hate/Aggression, Vulgarities, Sexual Content, Crime, and Self-Harm. Our evaluation demonstrates that both models achieve strong performance on multiple benchmarks. The 0.5B variant offers the best overall discrimination capability with F1 scores of 0.791 (micro) and 0.785 (macro) on the test set, while the 0.1B variant demonstrates exceptional efficiency. Notably, Bielik Guard 0.1B v1.1 achieves superior precision (77.65%) and very low false positive rate (0.63%) on real user prompts, outperforming HerBERT-PL-Guard (31.55% precision, 4.70% FPR) despite identical model size. The models are publicly available and designed to provide appropriate responses rather than simple content blocking, particularly for sensitive categories like self-harm.
- Abstract(参考訳): 大言語モデル(LLM)がポーランド語アプリケーションにますます導入されるにつれて、効率的かつ正確なコンテンツ安全性分類器の必要性が高まっている。
MMLW-RoBERTa-baseに基づく0.1Bパラメータモデルと、PKOBP/polish-roberta-8kに基づく0.5Bパラメータモデルである。
ポーランドの6,885のテキストからなるコミュニティアノテーション付きデータセットに基づいて、これらのモデルは、Hate/Aggression、Vulgarities、Sexual Content、Crith、Self-Harmという5つの安全カテゴリのコンテンツを分類する。
評価の結果,両モデルが複数のベンチマークで高い性能を示した。
0.5B版はF1スコアが0.791(マイクロ)と0.785(マクロ)で最高の全体的な識別能力を提供するが、0.1B版は例外的な効率を示す。
特に、Bielik Guard 0.1B v1.1は、実際のユーザープロンプトに対して優れた精度(77.65%)と非常に低い偽陽性率(0.63%)を達成し、同じモデルサイズにもかかわらずHerBERT-PL-Guard(31.55%、FPR4.70%)を上回っている。
モデルは公開されており、単純なコンテンツブロッキングよりも適切なレスポンスを提供するように設計されている。
関連論文リスト
- Benchmarking Cross-Lingual Semantic Alignment in Multilingual Embeddings [0.0]
タスク駆動ベンチマーク(MTEB)は基本的なアライメントの欠点を隠蔽する可能性がある。
意味的親和性 (Semantic Affinity, SA) は, 言語間比と言語内拡散比の有界(0, 1)の測定値である。
4つのデータセット(52の実験)に13のモデルをベンチマークすると、3層構造が明らかになる。
論文 参考訳(メタデータ) (2025-12-29T14:32:57Z) - XplaiNLP at CheckThat! 2025: Multilingual Subjectivity Detection with Finetuned Transformers and Prompt-Based Inference with Large Language Models [2.749729059235755]
このノートには、XplaiがCheckThat!に提出されたことを報告しています。
単言語および機械翻訳によるトレーニングデータに基づいて,変換器エンコーダの教師付き微調整,EuroBERT,XLM-RoBERTa,ジャーマン-BERTの2つの手法を評価する。
ドイツ語の場合、タイポロジーに関連のある言語から翻訳されたトレーニングデータに基づいて微調整されたドイツ語-BERTモデルでは、ベースライン上での競争性能が向上する。
論文 参考訳(メタデータ) (2025-09-15T16:53:41Z) - PL-Guard: Benchmarking Language Model Safety for Polish [43.39208658482427]
ポーランド語における言語モデルの安全性分類のために,手動で注釈付きベンチマークデータセットを導入する。
また、モデルロバスト性に挑戦するために設計されたこれらのサンプルの逆摂動変異体も作成する。
我々は、アノテーション付きデータの異なる組み合わせを用いてこれらのモデルをトレーニングし、それらのパフォーマンスを評価し、公開されているガードモデルと比較する。
論文 参考訳(メタデータ) (2025-06-19T13:56:41Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - Secret Breach Detection in Source Code with Large Language Models [2.5484785866796833]
ソースコードに機密情報を漏洩することは、依然として永続的なセキュリティ上の脅威である。
この研究は、大規模言語モデル(LLM)を用いたソースコードの秘密検出を強化することを目的としている。
局所展開のための細調整された小型モデルの実現可能性を評価する。
論文 参考訳(メタデータ) (2025-04-26T03:33:14Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。