論文の概要: FedDetox: Robust Federated SLM Alignment via On-Device Data Sanitization
- arxiv url: http://arxiv.org/abs/2604.06833v1
- Date: Wed, 08 Apr 2026 08:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.437513
- Title: FedDetox: Robust Federated SLM Alignment via On-Device Data Sanitization
- Title(参考訳): FedDetox: オンデバイスデータサニタイズによるロバストなフェデレーションSLMアライメント
- Authors: Shunan Zhu, Jiawei Chen, Yonghao Yu, Hideya Ochiai,
- Abstract要約: フェデレートラーニング(FL)は、プライバシーを維持しながら価値あるプライベートユーザーデータを活用するための重要な経路を提供する。
現実世界のクライアントデータは、しばしば有害または安全でない情報を含んでいる。
これは、意図しないデータ中毒と定義する重大な問題につながります。
我々は、リソース制約のあるエッジデバイス上でのSLM(Small Language Models)に適した堅牢なフレームワークであるFedDetoxを提案する。
- 参考スコア(独自算出の注目度): 7.325369528982596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As high quality public data becomes scarce, Federated Learning (FL) provides a vital pathway to leverage valuable private user data while preserving privacy. However, real-world client data often contains toxic or unsafe information. This leads to a critical issue we define as unintended data poisoning, which can severely damage the safety alignment of global models during federated alignment. To address this, we propose FedDetox, a robust framework tailored for Small Language Models (SLMs) on resource-constrained edge devices. We first employ knowledge distillation to transfer sophisticated safety alignment capabilities from large scale safety aligned teacher models into light weight student classifiers suitable for resource constrained edge devices. Specifically, during federated learning for human preference alignment, the edge client identifies unsafe samples at the source and replaces them with refusal templates, effectively transforming potential poisons into positive safety signals. Experiments demonstrate that our approach preserves model safety at a level comparable to centralized baselines without compromising general utility.
- Abstract(参考訳): 高品質な公開データが不足するにつれ、フェデレートラーニング(FL)は、プライバシーを維持しながら価値あるプライベートユーザデータを活用するための重要な経路を提供する。
しかし、現実世界のクライアントデータは、しばしば有害または安全でない情報を含んでいる。
これは、意図しないデータ中毒と定義する重大な問題につながり、フェデレートされたアライメント中のグローバルモデルの安全性アライメントを著しく損なう可能性がある。
これを解決するために、リソース制約のあるエッジデバイス上でのSLM(Small Language Models)に適した堅牢なフレームワークであるFedDetoxを提案する。
我々はまず知識蒸留を用いて、大規模安全対応型教師モデルからリソース制約エッジデバイスに適した軽量の学生分類器へ高度な安全アライメント機能を伝達する。
具体的には、人間の嗜好調整のための連合学習において、エッジクライアントはソースの安全でないサンプルを識別し、拒絶テンプレートで置き換え、潜在的毒を効果的に正の安全信号に変換する。
実験により,本手法は汎用性を損なうことなく,集中型ベースラインに匹敵するモデル安全性を保っていることが示された。
関連論文リスト
- SecureBreak -- A dataset towards safe and secure models [3.797867929356259]
本稿では、有害なLCM出力を検出するAI駆動型ソリューションの開発を支援するために設計された安全指向データセットSecureBreakを紹介する。
このデータセットは、安全を確保するためにラベルを保守的に割り当てる、注意深い手動アノテーションのため、非常に信頼性が高い。
トレーニング済みLLM試験ではSecureBreakを微調整した結果が改善された。
論文 参考訳(メタデータ) (2026-03-23T13:41:05Z) - Safeguarding LLM Fine-tuning via Push-Pull Distributional Alignment [45.772620696660034]
安全最適輸送(SOT)は、インスタンスレベルのフィルタリング課題から最適輸送(OT)に基づく分散レベルのアライメントタスクへ安全な微調整を再構成する新しいフレームワークである。
SOTは、下流の分布を信頼された安全なアンカーへ積極的に引き寄せ、同時に一般的な有害な参照から引き離すことで、サンプルの重要性を優先する。
さまざまなモデルファミリやドメインにわたる実験により、SOTは、競争力のある下流のパフォーマンスを維持しながら、モデルの安全性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2026-01-12T04:48:02Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation [70.62656296780074]
本稿では,新しいデータ生成法であるAIDSAFE(Agenic Iterative Deliberation for Safety Reasoning)を提案する。
AIDSAFEにおけるデータリファインダーの段階は、反復的、冗長的、詐欺的思考を排除し、高品質なアウトプットを保証する。
本評価は, AIDSAFEによるCoTsが, より優れた政策順守と推論品質を実現することを示すものである。
論文 参考訳(メタデータ) (2025-05-27T21:34:40Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。
我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - Byzantine-Robust Federated Learning Using Generative Adversarial Networks [1.4091801425319963]
フェデレートラーニング(FL)は、生データを共有せずに分散クライアント間で協調的なモデルトレーニングを可能にするが、その堅牢性は、データやモデル中毒といったビザンチンの行動によって脅かされている。
本稿では,クライアントの更新を検証するための代表データを生成するために,サーバ上の条件付き生成逆ネットワーク(cGAN)を活用することで,これらの課題に対処する防衛フレームワークを提案する。
このアプローチは、外部データセットへの依存を排除し、多様な攻撃戦略に適応し、標準FLにシームレスに統合する。
論文 参考訳(メタデータ) (2025-03-26T18:00:56Z) - Defending against Data Poisoning Attacks in Federated Learning via User Elimination [0.0]
本稿では,フェデレーションモデルにおける敵ユーザの戦略的排除に焦点を当てた,新たなフレームワークを提案する。
我々は、ローカルトレーニングインスタンスが収集したメタデータと差分プライバシー技術を統合することにより、フェデレートアルゴリズムのアグリゲーションフェーズにおける異常を検出する。
提案手法の有効性を実証し,ユーザのプライバシとモデル性能を維持しながらデータ汚染のリスクを大幅に軽減する。
論文 参考訳(メタデータ) (2024-04-19T10:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。