論文の概要: Semi-Supervised Learning for Large Language Models Safety and Content Moderation
- arxiv url: http://arxiv.org/abs/2512.21107v1
- Date: Wed, 24 Dec 2025 11:12:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.763786
- Title: Semi-Supervised Learning for Large Language Models Safety and Content Moderation
- Title(参考訳): 大規模言語モデルの安全性とコンテンツモデレーションのための半教師付き学習
- Authors: Eduard Stefan Dinuta, Iustin Sirbu, Traian Rebedea,
- Abstract要約: 大規模言語モデル(LLM)の安全性は、その出現以来、研究の焦点となっている。
ラベル付きデータとラベルなしデータの両方を活用する半教師付き学習手法を提案する。
大規模言語モデルに与えられるプロンプトと,その要求に対する応答の両方に対して,これらのテクニックがもたらす改善について分析する。
- 参考スコア(独自算出の注目度): 2.330245044478944
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Safety for Large Language Models (LLMs) has been an ongoing research focus since their emergence and is even more relevant nowadays with the increasing capacity of those models. Currently, there are several guardrails in place for all public LLMs and multiple proposed datasets for training safety classifiers. However, training these safety classifiers relies on large quantities of labeled data, which can be problematic to acquire, prone to labeling errors, or often include synthetic data. To address these issues, we suggest a different approach: utilizing semi-supervised learning techniques, which leverage both labeled and unlabeled data, to improve the performance on the safety task. We analyze the improvements that these techniques can offer for both prompts given to Large Language Models and the responses to those requests. Moreover, since augmentation is the central part of semi-supervised algorithms, we demonstrate the importance of using task-specific augmentations, which significantly increase the performance when compared to general-purpose augmentation techniques.
- Abstract(参考訳): 大規模言語モデルの安全性(LLMs)は、その出現以来研究の焦点であり、現在ではそれらのモデルの能力の増大と関係している。
現在、公共のLLMにはいくつかのガードレールがあり、安全分類器を訓練するための複数のデータセットが提案されている。
しかし、これらの安全分類器の訓練は大量のラベル付きデータに依存しており、これは取得やラベル付けの誤り、あるいはしばしば合成データを含むことが問題となる可能性がある。
これらの課題に対処するために,ラベル付きデータとラベルなしデータの両方を活用する半教師付き学習手法を用いることで,安全タスクの性能を向上させることを提案する。
大規模言語モデルに与えられるプロンプトと,その要求に対する応答の両方に対して,これらのテクニックがもたらす改善について分析する。
さらに,半教師付きアルゴリズムの中心的な部分である拡張は,汎用的な拡張技術と比較して,タスク固有の拡張を使うことの重要性を実証する。
関連論文リスト
- Lightweight Safety Guardrails via Synthetic Data and RL-guided Adversarial Training [0.1533068702686808]
小規模の言語モデルは、コンテンツモデレーションタスクにおけるより大きな言語のパフォーマンスを達成し、さらに上回ることができる。
これは高忠実な合成データ生成と逆行訓練によって達成される。
論文 参考訳(メタデータ) (2025-07-11T03:17:58Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - Disentangled Latent Spaces Facilitate Data-Driven Auxiliary Learning [9.571499333904969]
補助的なタスクは、データが不足したり、関心の主タスクが極めて複雑である状況での学習を容易にする。
Detauxと呼ばれる新しいフレームワークを提案する。このフレームワークでは,非関連性のある新たな補助的分類タスクを見つけるために,弱い教師付き逆絡手順が使用される。
切り離し手順は表現レベルで機能し、主タスクに関連する変動を孤立した部分空間に分離する。
論文 参考訳(メタデータ) (2023-10-13T17:40:39Z) - Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey [43.063650238194384]
大規模言語モデル(LLM)は,近年,大規模化と広範囲なトレーニングデータによるパフォーマンス向上を図っている。
機械学習モデルのトレーニングデータ記憶は、特にLLMに関して、モデルサイズに合わせてスケールする。
記憶されたテキストシーケンスは、LSMから直接リークされる可能性があり、データのプライバシに深刻な脅威をもたらす。
論文 参考訳(メタデータ) (2023-09-27T15:15:23Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。