Fugu-MT 論文翻訳(概要): SLM as Guardian: Pioneering AI Safety with Small Language Models

論文の概要: SLM as Guardian: Pioneering AI Safety with Small Language Models

arxiv url: http://arxiv.org/abs/2405.19795v1
Date: Thu, 30 May 2024 08:03:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 15:28:56.585181
Title: SLM as Guardian: Pioneering AI Safety with Small Language Models
Title（参考訳）: ガーディアンとしてのSLM - 小さな言語モデルによるAI安全性のパイオニア化
Authors: Ohjoon Kwon, Donghyeon Jeon, Nayoung Choi, Gyu-Hwung Cho, Changbong Kim, Hyunwoo Lee, Inho Kang, Sun Kim, Taiwoo Park,
Abstract要約: より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
参考スコア（独自算出の注目度）: 6.799423428734095
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Most prior safety research of large language models (LLMs) has focused on enhancing the alignment of LLMs to better suit the safety requirements of humans. However, internalizing such safeguard features into larger models brought challenges of higher training cost and unintended degradation of helpfulness. To overcome such challenges, a modular approach employing a smaller LLM to detect harmful user queries is regarded as a convenient solution in designing LLM-based system with safety requirements. In this paper, we leverage a smaller LLM for both harmful query detection and safeguard response generation. We introduce our safety requirements and the taxonomy of harmfulness categories, and then propose a multi-task learning mechanism fusing the two tasks into a single model. We demonstrate the effectiveness of our approach, providing on par or surpassing harmful query detection and safeguard response performance compared to the publicly available LLMs.
Abstract（参考訳）: 大型言語モデル(LLM)のこれまでの安全研究は、人間の安全要件に合うようにLCMのアライメントを強化することに重点を置いている。しかし、そのような安全機能をより大型のモデルに内包することで、より高い訓練コストと意図しない補助性の低下の課題がもたらされた。このような課題を克服するために、LLMを小さくして有害なユーザクエリを検出するモジュラーアプローチは、LLMベースのシステムを安全要件で設計する上で便利なソリューションであると見なされている。本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。安全要件と有害度カテゴリーの分類を導入し、2つのタスクを1つのモデルに融合させるマルチタスク学習機構を提案する。提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。

関連論文リスト

Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文参考訳（メタデータ） (2025-05-26T08:25:25Z)
Behind the Tip of Efficiency: Uncovering the Submerged Threats of Jailbreak Attacks in Small Language Models [19.781204384395064]
小型言語モデル(SLM)は、高い効率性と計算コストの低いエッジデバイスへの展開において、ますます顕著になっている。種々のジェイルブレイク攻撃下での13の最先端SLMのセキュリティ性能を評価するための総合的な実証的研究を行った。我々の実験では、ほとんどのSLMは既存のジェイルブレイク攻撃の影響を受けやすいが、一部のSLMは直接的な有害なプロンプトに対して脆弱である。
論文参考訳（メタデータ） (2025-02-27T08:44:04Z)
Almost Surely Safe Alignment of Large Language Models at Inference-Time [20.5164976103514]
高い能力を持つ大規模言語モデル(LLM)でさえ、バイアスや安全でない応答を発生させることができる。本稿では,新しい推論時間アライメント手法を提案する。我々は、マルコフ決定プロセスとして安全な推論時間応答をフレーミングすることでこれを達成している。
論文参考訳（メタデータ） (2025-02-03T09:59:32Z)
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging [43.44112117935541]
下流タスクのための細調整された大型言語モデル(LLM)は、安全に整合したLLMの安全性を低下させる。下流タスク性能を向上しつつ, LLM 固有の安全性を維持する手法を提案する。
論文参考訳（メタデータ） (2024-12-27T08:03:22Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
On Evaluating the Durability of Safeguards for Open-Weight LLMs [80.36750298080275]
我々は,大規模言語モデル(LLM)の誤用を技術的保護が阻害するか否かを論じる。これらの防御を評価することさえ非常に困難であり、観客を誤解させることなく、安全は実際のものよりも耐久性が高いと考えることが示される。今後の研究は、より制約があり、明確に定義され、厳密に検討された脅威モデルに注意深く対応することを提案します。
論文参考訳（メタデータ） (2024-12-10T01:30:32Z)
Semantic Loss Guided Data Efficient Supervised Fine Tuning for Safe Responses in LLMs [18.044879441434432]
有害なプロンプトに対する安全でない応答を生成する大規模言語モデル(LLM)は、彼らのアプリケーションにおいて重要な問題である。本稿では,この問題を克服し,高品質な人的データを必要とする限界を克服することを目的とする。負のEarth Mover Distance(EMD)損失と組み合わせたセマンティックコストを用いることで、LLMが安全でない応答を発生させないよう誘導する。
論文参考訳（メタデータ） (2024-12-07T16:35:14Z)
SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文参考訳（メタデータ） (2024-10-29T11:47:01Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
Tamper-Resistant Safeguards for Open-Weight LLMs [57.90526233549399]
オープンウェイトLLMにタンパ耐性保護具を組み込む方法を開発した。本手法は良性を保持しながらタンパー抵抗を大幅に改善する。以上の結果から, タンパー抵抗はトラクタブルな問題であることがわかった。
論文参考訳（メタデータ） (2024-08-01T17:59:12Z)
AI Safety in Generative AI Large Language Models: A Survey [14.737084887928408]
生成的AI能力を示す大規模言語モデル(LLM)は、採用とイノベーションの加速に直面している。生成AI(GAI)は、これらのモデルに関連するリスクと安全性に関する懸念を必然的に高める。本稿では,コンピュータ科学者の視点からAI安全研究の最新の動向について報告する。
論文参考訳（メタデータ） (2024-07-06T09:00:18Z)
Stealthy Attack on Large Language Model based Recommendation [24.51398285321322]
大規模言語モデル (LLM) はレコメンダシステム (RS) の進歩を推進している。本研究では,レコメンデーションモデルにLSMを導入することで,項目のテキスト内容に重点を置いているため,新たなセキュリティ脆弱性が生じることを明らかにした。攻撃者は、テストフェーズ中に単にテキストの内容を変更するだけで、アイテムの露出を大幅に向上させることができることを実証する。
論文参考訳（メタデータ） (2024-02-18T16:51:02Z)
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (2024-02-07T17:33:54Z)
On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文参考訳（メタデータ） (2024-01-31T17:28:24Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。