論文の概要: SafeCOMM: A Study on Safety Degradation in Fine-Tuned Telecom Large Language Models
- arxiv url: http://arxiv.org/abs/2506.00062v2
- Date: Mon, 27 Oct 2025 17:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.322833
- Title: SafeCOMM: A Study on Safety Degradation in Fine-Tuned Telecom Large Language Models
- Title(参考訳): SafeCOMM:細調整テレコム大言語モデルにおける安全性劣化に関する研究
- Authors: Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Syed Zawad, Fernando Koch, Walid Saad, Holger Boche,
- Abstract要約: テレコムデータセット上での細調整大型言語モデル(LLM)は、汎用モデルをテレコムドメインに適応するための一般的なプラクティスである。
近年の研究では、良質な微調整でさえLLMの安全性を低下させ、有害なユーザークエリや非倫理的なユーザクエリに応答させることが示されている。
- 参考スコア(独自算出の注目度): 86.11849528108199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large language models (LLMs) on telecom datasets is a common practice to adapt general-purpose models to the telecom domain. However, little attention has been paid to how this process may compromise model safety. Recent research has shown that even benign fine-tuning can degrade the safety alignment of LLMs, causing them to respond to harmful or unethical user queries. In this paper, we investigate this issue by fine-tuning LLMs on three representative telecom datasets and show that safety degrades even for light telecom domain adaptation. To this end, we introduce TeleHarm, the first telecom-specific red-teaming benchmark, which we use alongside established Direct-Harm and HexPhi datasets to systematically assess harmful behavior. We further extend our analysis to publicly available TeleLLMs that were continually pre-trained on large telecom corpora, revealing that safety alignment is severely lacking, primarily due to the omission of safety-focused instruction tuning. To address these issues, we evaluate three realignment defenses: SafeInstruct, SafeLoRA, SafeMERGE. We show that, across all settings, the proposed defenses can effectively restore safety without compromising telecom task performance, leading to Safe teleCOMMunication (SafeCOMM) models. Our work serves as both a diagnostic study and practical guide for safety realignment in telecom-tuned LLMs, underscoring the need for safety-aware instruction and fine-tuning in the telecom domain.
- Abstract(参考訳): テレコムデータセット上での細調整大型言語モデル(LLM)は、汎用モデルをテレコムドメインに適応するための一般的なプラクティスである。
しかし、このプロセスがモデルの安全性を損なう可能性があることにはほとんど注意が払われていない。
近年の研究では、良質な微調整でさえLLMの安全性を低下させ、有害なユーザークエリや非倫理的なユーザクエリに応答させることが示されている。
本稿では,3つの代表的なテレコムデータセット上でのLLMの微調整によりこの問題を解明し,光通信領域への適応においても安全性が低下することを示す。
この目的のために、私たちはDirect-HarmデータセットとHexPhiデータセットを併用して、有害な振る舞いを体系的に評価する、最初のテレコム固有のレッドチームベンチマークであるTeleHarmを紹介します。
我々は,大規模な通信コーパス上で継続的に事前訓練されたTeleLLMに対して,我々の分析をさらに拡張し,安全性に重点を置く命令チューニングの欠如が主な原因で,安全性の整合性が著しく欠如していることを明らかにした。
これらの課題に対処するため,SafeInstruct, SafeLoRA, SafeMERGEの3つの再配置防御策を評価した。
提案するディフェンスは,すべての設定において,通信タスクのパフォーマンスを損なうことなく効果的に安全性を回復し,Safe TeleCOMMunication (SafeCOMM) モデルが実現可能であることを示す。
本研究は,遠隔操作型LDMにおける安全性向上のための診断研究および実践的ガイドとして機能し,通信分野における安全性を意識した指導と微調整の必要性を浮き彫りにした。
関連論文リスト
- Fine-Tuning Lowers Safety and Disrupts Evaluation Consistency [17.57889200051214]
特定のドメインやタスクに対して汎用的な大規模言語モデル(LLM)を微調整することは,一般ユーザにとって日常的な手順となっている。
我々は、これを「攻撃」の良質な性質と相まって、微調整の広汎な取り込みによるLCMの臨界故障モードとみなす。
本実験では, 微調整装置に不連続な変化が生じても, 安全性評価の結果に驚くほどのばらつきが認められた。
論文 参考訳(メタデータ) (2025-06-20T17:57:12Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Picky LLMs and Unreliable RMs: An Empirical Study on Safety Alignment after Instruction Tuning [39.48925539103229]
微調整された大きな言語モデル(LLM)は、その安全性のアライメントを必然的に低下させる。
この現象により、モデルは不適切な応答を与えるのにより敏感になる。
我々の研究は、微調整中に安全アライメントを維持する複雑さを強調している。
論文 参考訳(メタデータ) (2025-02-03T07:09:09Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。