論文の概要: SGM: A Framework for Building Specification-Guided Moderation Filters
- arxiv url: http://arxiv.org/abs/2505.19766v1
- Date: Mon, 26 May 2025 09:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.339338
- Title: SGM: A Framework for Building Specification-Guided Moderation Filters
- Title(参考訳): SGM: 仕様誘導型モデレーションフィルタ構築のためのフレームワーク
- Authors: Masoomali Fatehkia, Enes Altinisik, Husrev Taha Sencar,
- Abstract要約: 大規模言語モデル(LLM)は、脱獄のような不適応や敵対的な入力に影響を受けやすい。
SGM(Specification-Guided Moderation)は,ユーザ定義仕様に基づいてモデレーションフィルタをトレーニングするためのフレキシブルなフレームワークである。
SGMでトレーニングされたフィルタは、キュレートされたデータセット上に構築された最先端の安全フィルタと同等に動作し、きめ細かい調整とユーザ定義のアライメント制御をサポートする。
- 参考スコア(独自算出の注目度): 13.627536649679577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) with deployment-specific requirements is critical but inherently imperfect. Despite extensive training, models remain susceptible to misalignment and adversarial inputs such as jailbreaks. Content moderation filters are commonly used as external safeguards, though they typically focus narrowly on safety. We introduce SGM (Specification-Guided Moderation), a flexible framework for training moderation filters grounded in user-defined specifications that go beyond standard safety concerns. SGM automates training data generation without relying on human-written examples, enabling scalable support for diverse, application-specific alignment goals. SGM-trained filters perform on par with state-of-the-art safety filters built on curated datasets, while supporting fine-grained and user-defined alignment control.
- Abstract(参考訳): 大規模言語モデル(LLM)とデプロイメント固有の要件の調整は重要だが、本質的には不十分である。
大規模な訓練にもかかわらず、モデルは、脱獄のような不適応や敵の入力に影響を受けやすいままである。
コンテンツモデレーションフィルタは一般的に外部の保護具として使用されるが、通常は安全に焦点を絞っている。
SGM(Specification-Guided Moderation)は,ユーザ定義仕様に基づくフレキシブルなモデレーションフィルタのトレーニングフレームワークである。
SGMは、人間が書いた例に頼ることなく、トレーニングデータ生成を自動化し、多様なアプリケーション固有のアライメント目標に対するスケーラブルなサポートを可能にします。
SGMでトレーニングされたフィルタは、キュレートされたデータセット上に構築された最先端の安全フィルタと同等に動作し、きめ細かい調整とユーザ定義のアライメント制御をサポートする。
関連論文リスト
- Improving LLM Reliability through Hybrid Abstention and Adaptive Detection [1.9495934446083012]
運用環境にデプロイされる大規模言語モデル(LLM)は、基本的な安全ユーティリティトレードオフに直面します。
静的ルールや固定された信頼しきい値に基づく従来のガードレールは通常、文脈に敏感で計算コストが高い。
本研究では,リアルタイムのコンテキスト信号に基づいて安全閾値を動的に調整する適応型禁制システムを提案する。
論文 参考訳(メタデータ) (2026-02-17T07:00:09Z) - LAB-Det: Language as a Domain-Invariant Bridge for Training-Free One-Shot Domain Generalization in Object Detection [53.988759250627425]
物体検出のための訓練不要なワンショット領域一般化を提案する。
我々は各例を、凍結検知器を条件付けし誘導する記述テキストに投影する。
UODD (underwater) と NEU-DET (industrial defects) についての検討
論文 参考訳(メタデータ) (2026-02-06T08:03:04Z) - GRP-Obliteration: Unaligning LLMs With a Single Unlabeled Prompt [6.311251343048617]
ラベルのない1つのプロンプトは、確実に安全に整合したモデルに十分であることを示す。
また, GRP-Oblitは, 従来の最先端技術よりも, 平均的な不整合性を実現していることを示す。
論文 参考訳(メタデータ) (2026-02-05T23:17:37Z) - Control Barrier Function for Aligning Large Language Models [0.0]
本稿では,制御障壁関数(CBF)を利用した大規模言語モデル(LLM)の整合化フレームワークを提案する。
提案フレームワークは、ベースラインLLMから生成された予測トークンに対してCBFセーフティフィルタを適用して、生成されたテキストに介入する。
全体のテキスト生成システムは、肯定的なテキストを生成することを目的として、オープンソースの言語モデルで実装されている。
論文 参考訳(メタデータ) (2025-11-05T02:12:59Z) - AnySafe: Adapting Latent Safety Filters at Runtime via Safety Constraint Parameterization in the Latent Space [14.019012127165901]
本研究では,実行時にユーザ指定の安全制約に適応できる制約パラメータ付き潜時安全フィルタを提案する。
我々のキーとなる考え方は、遅延空間類似度尺度を用いて、制約を表す画像のエンコーディングを条件付けすることで、安全制約を定義することである。
本手法は,ユーザの指定した制約画像の符号化を条件に実行時に適応し,性能を犠牲にすることなく適用する。
論文 参考訳(メタデータ) (2025-09-23T20:28:04Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Personalized Safety Alignment for Text-to-Image Diffusion Models [5.768305270318872]
生成モデルにおける安全行動に対するユーザ固有の制御を可能にするフレームワークを提案する。
ユーザ固有の安全設定をキャプチャする新しいデータセットであるSageを導入する。
実験により、PSAは有害なコンテンツ抑制において既存の方法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-08-02T02:23:20Z) - CoSteer: Collaborative Decoding-Time Personalization via Local Delta Steering [68.91862701376155]
CoSteerは、ローカライズされたデルタステアリングを通じてデコード時のパーソナライズを可能にする、新しいコラボレーティブフレームワークである。
トークンレベルの最適化をオンライン学習問題として定式化し、ローカルデルタベクトルがリモートLLMのロジットを動的に調整する。
このアプローチは、生のデータや中間ベクトルではなく、最後のステアリングトークンのみを送信することで、プライバシを保護します。
論文 参考訳(メタデータ) (2025-07-07T08:32:29Z) - Machine Learning with Privacy for Protected Attributes [56.44253915927481]
差分プライバシー(DP)の定義を洗練し、機能差分プライバシー(FDP)と呼ばれるより汎用的で柔軟なフレームワークを作成する。
私たちの定義はシミュレーションに基づいており、プライバシの追加/削除と置き換えの両方が可能で、保護された機能と非保護された機能の任意の分離を処理できます。
各種機械学習タスクにフレームワークを適用し,パブリック機能が利用可能であればDP学習モデルの実用性を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2025-06-24T17:53:28Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Picky LLMs and Unreliable RMs: An Empirical Study on Safety Alignment after Instruction Tuning [39.48925539103229]
微調整された大きな言語モデル(LLM)は、その安全性のアライメントを必然的に低下させる。
この現象により、モデルは不適切な応答を与えるのにより敏感になる。
我々の研究は、微調整中に安全アライメントを維持する複雑さを強調している。
論文 参考訳(メタデータ) (2025-02-03T07:09:09Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements [46.79887158348167]
大規模言語モデル(LLM)の安全性アライメントに関する現在のパラダイムは、一大のアプローチに従っている。
我々は,モデルの再トレーニングを伴わず,多様な安全要件に適応するフレームワークとして,制御可能な安全アライメント(CoSA)を提案する。
論文 参考訳(メタデータ) (2024-10-11T16:38:01Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations [29.32704733570445]
我々は人間とAIの会話のユースケースを対象とした入出力保護モデルであるLlama Guardを紹介した。
ラマガードは、特定の安全リスクを分類する貴重なツールである安全リスク分類を取り入れている。
Llama Guardは、OpenAIモデレーション評価データセットやToxicChatなど、既存のベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-07T19:40:50Z) - Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters [0.0]
強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。
予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。
この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。
その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。
論文 参考訳(メタデータ) (2023-12-04T12:37:54Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。