論文の概要: PL-Guard: Benchmarking Language Model Safety for Polish
- arxiv url: http://arxiv.org/abs/2506.16322v1
- Date: Thu, 19 Jun 2025 13:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.099109
- Title: PL-Guard: Benchmarking Language Model Safety for Polish
- Title(参考訳): PL-Guard:ポーランドの言語モデルの安全性のベンチマーク
- Authors: Aleksandra Krasnodębska, Karolina Seweryn, Szymon Łukasik, Wojciech Kusa,
- Abstract要約: ポーランド語における言語モデルの安全性分類のために,手動で注釈付きベンチマークデータセットを導入する。
また、モデルロバスト性に挑戦するために設計されたこれらのサンプルの逆摂動変異体も作成する。
我々は、アノテーション付きデータの異なる組み合わせを用いてこれらのモデルをトレーニングし、それらのパフォーマンスを評価し、公開されているガードモデルと比較する。
- 参考スコア(独自算出の注目度): 43.39208658482427
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite increasing efforts to ensure the safety of large language models (LLMs), most existing safety assessments and moderation tools remain heavily biased toward English and other high-resource languages, leaving majority of global languages underexamined. To address this gap, we introduce a manually annotated benchmark dataset for language model safety classification in Polish. We also create adversarially perturbed variants of these samples designed to challenge model robustness. We conduct a series of experiments to evaluate LLM-based and classifier-based models of varying sizes and architectures. Specifically, we fine-tune three models: Llama-Guard-3-8B, a HerBERT-based classifier (a Polish BERT derivative), and PLLuM, a Polish-adapted Llama-8B model. We train these models using different combinations of annotated data and evaluate their performance, comparing it against publicly available guard models. Results demonstrate that the HerBERT-based classifier achieves the highest overall performance, particularly under adversarial conditions.
- Abstract(参考訳): 大きな言語モデル(LLM)の安全性を確保する努力が増えているにもかかわらず、既存の安全性評価やモデレーションツールの多くは、英語や他の高リソース言語に大きく偏っているままであり、世界の言語の大半は過小評価されている。
このギャップに対処するため,ポーランド語における言語モデル安全分類のための手動注釈付きベンチマークデータセットを導入する。
また、モデルロバスト性に挑戦するために設計されたこれらのサンプルの逆摂動変異体も作成する。
様々なサイズとアーキテクチャのLCMベースおよび分類器ベースモデルを評価するための一連の実験を行った。
具体的には、HerBERTベースの分類器であるLlama-Guard-3-8Bと、ポーランド適応のLlama-8BモデルであるPLLuMの3つのモデルを微調整する。
我々は、アノテーション付きデータの異なる組み合わせを用いてこれらのモデルをトレーニングし、それらのパフォーマンスを評価し、公開されているガードモデルと比較する。
その結果,HerBERTをベースとした分類器は,特に逆条件下での総合的な性能が最も高いことがわかった。
関連論文リスト
- Large Language Models For Text Classification: Case Study And Comprehensive Review [0.3428444467046467]
各種言語モデル(LLM)の性能を,最先端のディープラーニングモデルや機械学習モデルと比較して評価する。
本研究は,提案手法に基づくモデル応答の有意な変動を明らかにした。
論文 参考訳(メタデータ) (2025-01-14T22:02:38Z) - Danoliteracy of Generative Large Language Models [1.3873323883842132]
デンマーク語と文化能力の尺度であるemphDanoliteracyを評価するためのGLLMベンチマークを提案する。
デンマーク語で GLLM のシナリオ性能のばらつきを95% で説明できる強力な要因が1つ見いだされる。
論文 参考訳(メタデータ) (2024-10-30T09:18:31Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Data-Augmentation-Based Dialectal Adaptation for LLMs [26.72394783468532]
本稿では, GMUNLPによるVarDial 2024におけるDialect-Copa共有タスクへの参加について述べる。
この課題は、南スラヴ語のマイクロディレクト上での大規模言語モデル(LLM)の常識推論能力を評価することに焦点を当てている。
本稿では,異なるタイプの言語モデルの強みを組み合わせ,データ拡張技術を活用してタスク性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T19:15:32Z) - Assessing generalization capability of text ranking models in Polish [0.0]
Retrieval-augmented Generation (RAG) は、内部知識ベースと大規模言語モデルを統合する技術として、ますます人気が高まっている。
本稿では,ポーランド語におけるリランク問題に着目し,リランカーの性能について検討する。
私たちのモデルの中で最高のものは、ポーランド語で再ランク付けするための新しい最先端技術を確立し、最大30倍のパラメータを持つ既存のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-02-22T06:21:41Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文 参考訳(メタデータ) (2021-04-23T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。