論文の概要: Toward Responsible Federated Large Language Models: Leveraging a Safety Filter and Constitutional AI
- arxiv url: http://arxiv.org/abs/2502.16691v1
- Date: Sun, 23 Feb 2025 19:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:52:45.853988
- Title: Toward Responsible Federated Large Language Models: Leveraging a Safety Filter and Constitutional AI
- Title(参考訳): 責任あるフェデレーション付き大言語モデルに向けて:安全フィルタと構成AIを活用する
- Authors: Eunchung Noh, Jeonghun Baek,
- Abstract要約: FedLLMでは、トレーニングに使用されるクライアントデータが有害なコンテンツを含んでいる可能性があるため、有害な応答を生成する安全でないLCMが発生する。
この問題を解決するために、FedLLMには2つの有名なRAIメソッド、セーフティフィルタとコンスティチューションAIが組み込まれています。
実験の結果,これらの手法はLLMの安全性を大幅に向上させ,安全性評価のベンチマークであるAdvBenchの20%以上の改善を実現していることがわかった。
- 参考スコア(独自算出の注目度): 8.643468777944188
- License:
- Abstract: Recent research has increasingly focused on training large language models (LLMs) using federated learning, known as FedLLM. However, responsible AI (RAI), which aims to ensure safe responses, remains underexplored in the context of FedLLM. In FedLLM, client data used for training may contain harmful content, leading to unsafe LLMs that generate harmful responses. Aggregating such unsafe LLMs into the global model and distributing them to clients may result in the widespread deployment of unsafe LLMs. To address this issue, we incorporate two well-known RAI methods into FedLLM: the safety filter and constitutional AI. Our experiments demonstrate that these methods significantly enhance the safety of the LLM, achieving over a 20% improvement on AdvBench, a benchmark for evaluating safety performance.
- Abstract(参考訳): 最近の研究は、フェデレートラーニング(FedLLM)として知られるフェデレーションラーニングを用いた大規模言語モデル(LLM)のトレーニングに重点を置いている。
しかし、安全な応答を確保することを目的とした責任あるAI(RAI)は、FedLLMの文脈では未探索のままである。
FedLLMでは、トレーニングに使用されるクライアントデータが有害なコンテンツを含んでいる可能性があるため、有害な応答を生成する安全でないLCMが発生する。
このような安全でないLLMをグローバルモデルに集約し、クライアントに配布することで、安全でないLLMが広くデプロイされる可能性がある。
この問題を解決するために、FedLLMには2つの有名なRAIメソッド、セーフティフィルタとコンスティチューションAIが組み込まれています。
実験の結果,これらの手法はLLMの安全性を大幅に向上させ,安全性評価のベンチマークであるAdvBenchの20%以上の改善を実現していることがわかった。
関連論文リスト
- Almost Surely Safe Alignment of Large Language Models at Inference-Time [20.5164976103514]
高い能力を持つ大規模言語モデル(LLM)でさえ、バイアスや安全でない応答を発生させることができる。
本稿では,新しい推論時間アライメント手法を提案する。
我々は、マルコフ決定プロセスとして安全な推論時間応答をフレーミングすることでこれを達成している。
論文 参考訳(メタデータ) (2025-02-03T09:59:32Z) - Trust & Safety of LLMs and LLMs in Trust & Safety [0.0]
本稿では,大規模言語モデルにおける信頼と安全性に関する現在の研究状況について考察する。
信頼性と安全性が最優先の領域におけるLCMの利用の複雑さを掘り下げる。
このレビューでは、信頼と安全においてLLMを使用するためのベストプラクティスに関する洞察を提供し、迅速な注入や脱獄攻撃といった新たなリスクについて調査する。
論文 参考訳(メタデータ) (2024-12-03T03:10:12Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:03:15Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。