論文の概要: Unified Multi-Task Learning & Model Fusion for Efficient Language Model Guardrailing
- arxiv url: http://arxiv.org/abs/2504.19333v1
- Date: Sun, 27 Apr 2025 19:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.238147
- Title: Unified Multi-Task Learning & Model Fusion for Efficient Language Model Guardrailing
- Title(参考訳): 効率的な言語モデルガードレールのための統一型マルチタスク学習とモデル融合
- Authors: James O' Neill, Santhosh Subramanian, Eric Lin, Vaikkunth Mugunthan,
- Abstract要約: タスク固有のデータ生成は、微調整による分類に繋がることを示す。
単一のモデルであるtexttMultiTaskGuardを使用して、大規模な合成生成データセットで事前トレーニングすることで、一般化が改善される。
我々の最もパフォーマンスの高いモデルである textttUniGuard は、提案した検索ベースのモデルマージアプローチを用いて見つける。
- 参考スコア(独自算出の注目度): 7.959705237659548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The trend towards large language models (LLMs) for guardrailing against undesired behaviors is increasing and has shown promise for censoring user inputs. However, increased latency, memory consumption, hosting expenses and non-structured outputs can make their use prohibitive. In this work, we show that task-specific data generation can lead to fine-tuned classifiers that significantly outperform current state of the art (SoTA) while being orders of magnitude smaller. Secondly, we show that using a single model, \texttt{MultiTaskGuard}, that is pretrained on a large synthetically generated dataset with unique task instructions further improves generalization. Thirdly, our most performant models, \texttt{UniGuard}, are found using our proposed search-based model merging approach that finds an optimal set of parameters to combine single-policy models and multi-policy guardrail models. % On 7 public datasets and 4 guardrail benchmarks we created, our efficient guardrail classifiers improve over the best performing SoTA publicly available LLMs and 3$^{\text{rd}}$ party guardrail APIs in detecting unsafe and safe behaviors by an average F1 score improvement of \textbf{29.92} points over Aegis-LlamaGuard and \textbf{21.62} over \texttt{gpt-4o}, respectively. Lastly, our guardrail synthetic data generation process that uses custom task-specific guardrail poli
- Abstract(参考訳): 望ましくない行動に対するガードレールを行う大規模言語モデル(LLM)の傾向が高まり,ユーザ入力の検閲が約束されている。
しかし、レイテンシの増加、メモリ消費、ホスティング費用、非構造化アウトプットは、それらの使用を禁止します。
本研究は,タスク固有のデータ生成が,タスクの順序を桁違いに小さくしながら,現在の SoTA (State-of-the-art) を著しく上回る微調整型分類器に繋がることを示す。
第2に,単一モデルである \texttt{MultiTaskGuard} を用いることで,一意なタスク命令を持つ大規模合成データセット上で事前学習を行うことで,一般化がさらに向上することを示す。
第三に、我々の最も高性能なモデルである \texttt{UniGuard} は、探索に基づくモデルマージ手法を用いて、単一政治モデルと多都市ガードレールモデルを組み合わせた最適なパラメータセットを求める。
% Aegis-LlamaGuard と \textbf{21.62} over \texttt{gpt-4o} では、平均的な F1 スコアで、安全で安全な振る舞いを検出できる。
最後に、カスタムタスク固有のガードレールポリを用いたガードレール合成データ生成プロセスについて
関連論文リスト
- Secret Breach Detection in Source Code with Large Language Models [2.5484785866796833]
APIキーやトークン,資格情報などの機密情報をソースコードに漏洩することは,依然として永続的なセキュリティ上の脅威である。
この研究は、大規模な言語モデル(LLM)を用いたソースコードの秘密検出を強化し、高いリコールを維持しながら偽陽性を減らすことを目的としている。
論文 参考訳(メタデータ) (2025-04-26T03:33:14Z) - SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models [63.63254955809224]
本稿では,難しい例と簡単な例を区別するバイナリルータを提案する。
提案手法は、ルータが考慮するデータに対して、より大きな安全ガードモデルを選択的に適用し、精度を維持しながら効率を向上する。
複数のベンチマークデータセットによる実験結果から,適応モデルの選択により,計算コストと安全性性能のトレードオフが著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:51:17Z) - DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails [12.621656255109546]
本稿では,多言語ガードレール学習のための高品質な合成データを生成するために,ジェネレータとガードレールモデルが逆方向に共進化する新しい2要素強化学習フレームワークを提案する。
実験により、我々のモデルは最先端モデルよりも優れており、LlamaGuard3よりも10%近く改善されていることが示された。
論文 参考訳(メタデータ) (2025-02-07T18:45:03Z) - Practical Secure Inference Algorithm for Fine-tuned Large Language Model Based on Fully Homomorphic Encryption [0.0]
完全同型暗号化(FHE)と証明可能なセキュリティ理論とFine-Tuning(PEFT)を組み合わせて,大規模言語モデルの効率的かつセキュアな推論手法を提案する。
本稿では,オープンソースのChatGLM2-6Bを,LoRAによって微調整されたベースモデルとして利用する。
実験結果から,提案方式の予測効率は1.61s/に向上した。
論文 参考訳(メタデータ) (2025-01-03T07:19:23Z) - Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
ネットワークプルーニングのためのemphtop-upアルゴリズムであるtextscNeuroALを提案する。
これは、高密度モデルとスパースバージョンの両方から情報を利用するブロックワイドと行ワイドのスパース性を変更する。
パフォーマンスと実行時のトレードオフの観点から、最新の最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-11T15:30:16Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors [44.5740422079]
標準的なデノベーション目的による事前トレーニングは、複数のアーキテクチャで劇的に向上することを示す。
先行研究とは対照的に、適切に事前訓練された場合の長距離アリーナでのS4の性能に適合するバニラトランスフォーマーが見つかる。
論文 参考訳(メタデータ) (2023-10-04T17:17:06Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Improving Contrastive Learning with Model Augmentation [123.05700988581806]
このシーケンシャルレコメンデーションは,ユーザ行動における次の項目を予測することを目的としている。
シーケンスにおけるデータの分散性やノイズの問題から,新たな自己教師付き学習(SSL)パラダイムが提案され,性能が向上した。
論文 参考訳(メタデータ) (2022-03-25T06:12:58Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。