論文の概要: Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models
- arxiv url: http://arxiv.org/abs/2603.07017v1
- Date: Sat, 07 Mar 2026 03:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.614579
- Title: Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models
- Title(参考訳): 弱スーパービジョンから安全を創出できるか? : 小言語モデルの体系的分析
- Authors: Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda,
- Abstract要約: Self-MOAは、自動化評価モデルからの弱い監督を使って、小さな言語モデルを整列するための完全に自動化されたフレームワークである。
安全性は12.41%向上し、人監督アライメントベースラインの11倍のトレーニングデータを使用する。
- 参考スコア(独自算出の注目度): 6.576811280895214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety alignment is critical for deploying large language models (LLMs) in real-world applications, yet most existing approaches rely on large human-annotated datasets and static red-teaming benchmarks that are costly, difficult to scale, and slow to adapt to evolving model behaviors. Moreover, overly conservative safety mechanisms can reduce model usefulness by rejecting sensitive but legitimate queries. We introduce Self-MOA (Self Multi-Objective Alignment), a fully automated framework for aligning small language models using weak supervision from automated evaluator models. Self-MOA operates as a closed loop that dynamically generates model-specific red team prompts, constructs preference data from model-generated responses, and aligns models via multi-objective preference optimization to jointly optimize for safety and helpfulness. Across multiple small language models and safety benchmarks, Self-MOA achieves a 12.41\% improvement in safety while preserving helpfulness, using as little as 11 times less training data than human-supervised alignment baselines. These results demonstrate that adaptive, automated alignment can reduce the dependence on static, human-curated safety pipelines in resource-constrained settings.
- Abstract(参考訳): 安全性のアライメントは,大規模な言語モデル(LLM)を現実のアプリケーションにデプロイする上で重要なものだが,既存のアプローチでは,大規模でコストがかかり,スケールが難しく,モデル動作の進化に適応するのが遅い,大規模な人間アノテーション付きデータセットと静的な赤チームベンチマークに頼っている。
さらに、過度に保守的な安全メカニズムは、センシティブだが正当なクエリーを拒否することで、モデルの有用性を低下させることができる。
自己多目的アライメント(Self Multi-Objective Alignment, 自己多目的アライメント, 自己多目的アライメント)は, 自己評価モデルからの弱監督を用いて, 小言語モデルを整合させる, 完全自動化されたフレームワークである。
Self-MOAは閉じたループとして機能し、モデル固有のレッドチームプロンプトを動的に生成し、モデル生成された応答から嗜好データを構築し、多目的の選好最適化を通じてモデルを調整し、安全性と利便性を共同で最適化する。
複数の小さな言語モデルと安全性ベンチマークで、Self-MOAは安全性を12.41 %向上し、利便性を保ちながら、人間の監督されたアライメントベースラインの11倍のトレーニングデータを使用する。
これらの結果から,アダプティブな自動アライメントにより,資源制約設定における静的な人為的安全パイプラインへの依存を低減できることが示された。
関連論文リスト
- SALMAN: Stability Analysis of Language Models Through the Maps Between Graph-based Manifolds [11.373585987937913]
本研究では,内部パラメータの変更や複雑な摂動に頼らずにモデル安定性を評価する統一的局所(サンプルレベル)ロバストネスフレームワーク(SALMAN)を提案する。
提案手法の中心となるのがDMD(Distance Mapping Distortion)尺度である。
攻撃効率とロバストトレーニングの大幅な向上を示すことによって、我々は、トランスフォーマーベースのNLPシステムの信頼性を向上させるための実用的、モデルに依存しないツールとして、我々のフレームワークを位置づける。
論文 参考訳(メタデータ) (2025-08-23T02:50:55Z) - From Failures to Fixes: LLM-Driven Scenario Repair for Self-Evolving Autonomous Driving [29.36624509719055]
本研究では,自動走行システムの自己開発を可能にするフレームワークである textbfSERA を提案する。
パフォーマンスログを分析することで、SERAは障害パターンを特定し、構造化バンクから動的にセマンティックに整合したシナリオを検索する。
ベンチマークの実験では、SERAは複数の自律走行ベースラインにわたる重要な指標を一貫して改善し、安全クリティカルな条件下での有効性と一般化性を実証している。
論文 参考訳(メタデータ) (2025-05-28T07:46:19Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。
我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。
選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文 参考訳(メタデータ) (2025-04-03T00:36:40Z) - SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models [63.63254955809224]
本稿では,難しい例と簡単な例を区別するバイナリルータを提案する。
提案手法は、ルータが考慮するデータに対して、より大きな安全ガードモデルを選択的に適用し、精度を維持しながら効率を向上する。
複数のベンチマークデータセットによる実験結果から,適応モデルの選択により,計算コストと安全性性能のトレードオフが著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:51:17Z) - Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,リトレーニングを繰り返して安定なモデル列を見つけるためのモデルに依存しないフレームワークを提案する。
最適モデルの復元が保証される混合整数最適化の定式化を開発する。
平均的に、予測力の2%の低下は、安定性の30%の改善につながることが判明した。
論文 参考訳(メタデータ) (2024-03-28T22:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。