論文の概要: Scaling behavior of large language models in emotional safety classification across sizes and tasks
- arxiv url: http://arxiv.org/abs/2509.04512v1
- Date: Tue, 02 Sep 2025 20:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.34865
- Title: Scaling behavior of large language models in emotional safety classification across sizes and tasks
- Title(参考訳): サイズ・タスク間の感情的安全分類における大規模言語モデルのスケーリング行動
- Authors: Edoardo Pinzuti, Oliver Tüscher, André Ferreira Castro,
- Abstract要約: 本研究では,大言語モデル(LLM)の3次的感情安全分類と多ラベル分類という2つの重要な課題に対するスケーリング行動について検討する。
我々は、人間によって認可されたメンタルヘルスデータセットをマージして、新しいデータセットを構築する。
4つのLLaMAモデル (1B, 3B, 8B, 70B) をゼロショット, 少数ショット, 微調整設定で評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how large language models (LLMs) process emotionally sensitive content is critical for building safe and reliable systems, particularly in mental health contexts. We investigate the scaling behavior of LLMs on two key tasks: trinary classification of emotional safety (safe vs. unsafe vs. borderline) and multi-label classification using a six-category safety risk taxonomy. To support this, we construct a novel dataset by merging several human-authored mental health datasets (> 15K samples) and augmenting them with emotion re-interpretation prompts generated via ChatGPT. We evaluate four LLaMA models (1B, 3B, 8B, 70B) across zero-shot, few-shot, and fine-tuning settings. Our results show that larger LLMs achieve stronger average performance, particularly in nuanced multi-label classification and in zero-shot settings. However, lightweight fine-tuning allowed the 1B model to achieve performance comparable to larger models and BERT in several high-data categories, while requiring <2GB VRAM at inference. These findings suggest that smaller, on-device models can serve as viable, privacy-preserving alternatives for sensitive applications, offering the ability to interpret emotional context and maintain safe conversational boundaries. This work highlights key implications for therapeutic LLM applications and the scalable alignment of safety-critical systems.
- Abstract(参考訳): 大規模言語モデル(LLM)がどのように感情に敏感なコンテンツを処理しているかを理解することは、安全で信頼性の高いシステムの構築、特にメンタルヘルスの文脈において重要である。
本研究では,LLMの心理的安全性の3次分類(安全 vs. 安全対境界線)と,6カテゴリの安全リスク分類を用いた多ラベル分類の2つの重要な課題について検討する。
これを支援するために、我々は、ChatGPTを介して生成された感情再解釈プロンプトで、複数の人間が認可したメンタルヘルスデータセット(>15Kサンプル)を統合して、新しいデータセットを構築した。
4つのLLaMAモデル (1B, 3B, 8B, 70B) をゼロショット, 少数ショット, 微調整設定で評価した。
以上の結果から,より大きなLLMは,特にニュアンス付きマルチラベル分類やゼロショット設定において,より優れた平均性能を実現することが示唆された。
しかし、軽量な微調整により、1Bモデルはより大型のモデルやBERTに匹敵する性能を達成できたが、推論には<2GB VRAMが必要であった。
これらの結果は、小型のオンデバイスモデルは、センシティブなアプリケーションに対して実行可能なプライバシー保護代替手段として機能し、感情的なコンテキストを解釈し、安全な会話境界を維持することができることを示唆している。
この研究は、治療用LLMアプリケーションおよび安全クリティカルシステムのスケーラブルなアライメントに対する重要な意味を強調している。
関連論文リスト
- The Problem with Safety Classification is not just the Models [3.2634122554914002]
18言語を対象としたデータセットを考慮し,5つの安全分類モデルに多言語差が存在することを示す。
評価データセットの潜在的な問題を特定し、現在の安全分類器の欠点はモデル自体が原因ではないと主張した。
論文 参考訳(メタデータ) (2025-07-29T13:09:40Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts [0.0]
大規模言語モデル(LLM)や生成AIの普及に伴い、その使用に伴うコンテンツ安全性のリスクも増大する。
高品質なコンテンツ安全性データセットとベンチマークには、広範囲のクリティカルな安全領域を包括的にカバーする注目すべき欠如がある。
これを解決するために、13の危険リスクと9のスパースリスクカテゴリからなる幅広いコンテンツ安全リスク分類を定義した。
論文 参考訳(メタデータ) (2024-04-09T03:54:28Z) - Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。
Safe and Responsible Large Language Model (textbfSR$_textLLM$)を紹介する。
textbfSR$_textLLM$は知識の整合性を保ちながらバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。