Fugu-MT 論文翻訳(概要): PL-Guard: Benchmarking Language Model Safety for Polish

論文の概要: PL-Guard: Benchmarking Language Model Safety for Polish

arxiv url: http://arxiv.org/abs/2506.16322v1
Date: Thu, 19 Jun 2025 13:56:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:05.099109
Title: PL-Guard: Benchmarking Language Model Safety for Polish
Title（参考訳）: PL-Guard:ポーランドの言語モデルの安全性のベンチマーク
Authors: Aleksandra Krasnodębska, Karolina Seweryn, Szymon Łukasik, Wojciech Kusa,
Abstract要約: ポーランド語における言語モデルの安全性分類のために,手動で注釈付きベンチマークデータセットを導入する。また、モデルロバスト性に挑戦するために設計されたこれらのサンプルの逆摂動変異体も作成する。我々は、アノテーション付きデータの異なる組み合わせを用いてこれらのモデルをトレーニングし、それらのパフォーマンスを評価し、公開されているガードモデルと比較する。
参考スコア（独自算出の注目度）: 43.39208658482427
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Despite increasing efforts to ensure the safety of large language models (LLMs), most existing safety assessments and moderation tools remain heavily biased toward English and other high-resource languages, leaving majority of global languages underexamined. To address this gap, we introduce a manually annotated benchmark dataset for language model safety classification in Polish. We also create adversarially perturbed variants of these samples designed to challenge model robustness. We conduct a series of experiments to evaluate LLM-based and classifier-based models of varying sizes and architectures. Specifically, we fine-tune three models: Llama-Guard-3-8B, a HerBERT-based classifier (a Polish BERT derivative), and PLLuM, a Polish-adapted Llama-8B model. We train these models using different combinations of annotated data and evaluate their performance, comparing it against publicly available guard models. Results demonstrate that the HerBERT-based classifier achieves the highest overall performance, particularly under adversarial conditions.
Abstract（参考訳）: 大きな言語モデル(LLM)の安全性を確保する努力が増えているにもかかわらず、既存の安全性評価やモデレーションツールの多くは、英語や他の高リソース言語に大きく偏っているままであり、世界の言語の大半は過小評価されている。このギャップに対処するため,ポーランド語における言語モデル安全分類のための手動注釈付きベンチマークデータセットを導入する。また、モデルロバスト性に挑戦するために設計されたこれらのサンプルの逆摂動変異体も作成する。様々なサイズとアーキテクチャのLCMベースおよび分類器ベースモデルを評価するための一連の実験を行った。具体的には、HerBERTベースの分類器であるLlama-Guard-3-8Bと、ポーランド適応のLlama-8BモデルであるPLLuMの3つのモデルを微調整する。我々は、アノテーション付きデータの異なる組み合わせを用いてこれらのモデルをトレーニングし、それらのパフォーマンスを評価し、公開されているガードモデルと比較する。その結果,HerBERTをベースとした分類器は,特に逆条件下での総合的な性能が最も高いことがわかった。

関連論文リスト

The Problem with Safety Classification is not just the Models [3.2634122554914002]
18言語を対象としたデータセットを考慮し,5つの安全分類モデルに多言語差が存在することを示す。評価データセットの潜在的な問題を特定し、現在の安全分類器の欠点はモデル自体が原因ではないと主張した。
論文参考訳（メタデータ） (2025-07-29T13:09:40Z)
Large Language Models For Text Classification: Case Study And Comprehensive Review [0.3428444467046467]
各種言語モデル(LLM)の性能を,最先端のディープラーニングモデルや機械学習モデルと比較して評価する。本研究は,提案手法に基づくモデル応答の有意な変動を明らかにした。
論文参考訳（メタデータ） (2025-01-14T22:02:38Z)
Danoliteracy of Generative Large Language Models [1.3873323883842132]
デンマーク語と文化能力の尺度であるemphDanoliteracyを評価するためのGLLMベンチマークを提案する。デンマーク語で GLLM のシナリオ性能のばらつきを95% で説明できる強力な要因が1つ見いだされる。
論文参考訳（メタデータ） (2024-10-30T09:18:31Z)
Determine-Then-Ensemble: Necessity of Top-k Union for Large Language Model Ensembling [23.447466392929712]
大規模言語モデル(LLM)は、様々なタスクに様々な長所と短所を示す。既存のLLMアンサンブル法は、しばしばモデルの互換性を見落とし、確率の非効率なアライメントに苦しむ。 textscUnion textscTop-$k$ textscEnsembling (textscUniTE)は,各モデルから上位kトークンの結合に着目し,効率的にモデルを結合する新しいアプローチである。
論文参考訳（メタデータ） (2024-10-03T08:42:38Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
Data-Augmentation-Based Dialectal Adaptation for LLMs [26.72394783468532]
本稿では, GMUNLPによるVarDial 2024におけるDialect-Copa共有タスクへの参加について述べる。この課題は、南スラヴ語のマイクロディレクト上での大規模言語モデル(LLM)の常識推論能力を評価することに焦点を当てている。本稿では,異なるタイプの言語モデルの強みを組み合わせ,データ拡張技術を活用してタスク性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-04-11T19:15:32Z)
Assessing generalization capability of text ranking models in Polish [0.0]
Retrieval-augmented Generation (RAG) は、内部知識ベースと大規模言語モデルを統合する技術として、ますます人気が高まっている。本稿では,ポーランド語におけるリランク問題に着目し,リランカーの性能について検討する。私たちのモデルの中で最高のものは、ポーランド語で再ランク付けするための新しい最先端技術を確立し、最大30倍のパラメータを持つ既存のモデルよりも優れています。
論文参考訳（メタデータ） (2024-02-22T06:21:41Z)
Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。 Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文参考訳（メタデータ） (2023-09-14T17:45:51Z)
Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文参考訳（メタデータ） (2023-05-28T13:19:12Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文参考訳（メタデータ） (2021-09-16T03:08:22Z)
Towards Trustworthy Deception Detection: Benchmarking Model Robustness across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文参考訳（メタデータ） (2021-04-23T18:05:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。