論文の概要: Guard Vector: Beyond English LLM Guardrails with Task-Vector Composition and Streaming-Aware Prefix SFT
- arxiv url: http://arxiv.org/abs/2509.23381v1
- Date: Sat, 27 Sep 2025 16:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.196331
- Title: Guard Vector: Beyond English LLM Guardrails with Task-Vector Composition and Streaming-Aware Prefix SFT
- Title(参考訳): Guard Vector: Task-Vector composition と Streaming-Aware Prefix SFT を備えた英語 LLM Guardrails を超えて
- Authors: Wonhyuk Lee, Youngchol Kim, Yunjin Park, Junhyung Moon, Dongyoung Jeong, Wanjin Park,
- Abstract要約: ガードレールモデル(ガードモデル)と非構造事前学習言語モデルとのパラメータ差として計算された安全タスクベクトルであるガードベクトルを導入する。
次に、プレフィックスベースのトレーニングと評価を組み合わせたストリーミング認識アプローチと、単一トーケン出力を生成する分類器を併用して、TGMを適応する。
- 参考スコア(独自算出の注目度): 0.25655761752240497
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Guard Vector, a safety task vector computed as the parameter difference between a guardrail model (Guard Model) and a same-architecture pretrained language model. Composing this vector with a target language model yields a Target Guard Model (TGM). We then adapt TGM with a streaming-aware approach that combines prefix-based training and evaluation with a classifier that produces a single-token output. With this composition alone, TGM improves classification quality over established Guard Models across standard safety suites and enables language extensibility to Chinese, Japanese, and Korean, requiring neither additional training nor target language labels. It also demonstrates model portability across two widely used public guardrail backbones, Llama and Gemma. With prefix SFT (supervised fine-tuning), TGM preserves classification quality under streaming by aligning the behavior between prefix inputs and full-text inputs. The single-token output design increases throughput and reduces latency. Together, these components reduce data and compute requirements while promoting streaming-aware evaluation practices, thereby contributing to a more responsible AI ecosystem.
- Abstract(参考訳): ガードレールモデル(ガードモデル)と非構造事前学習言語モデルとのパラメータ差として計算された安全タスクベクトルであるガードベクトルを導入する。
このベクトルをターゲット言語モデルで構成すると、ターゲットガードモデル(TGM)が得られる。
次に、プレフィックスベースのトレーニングと評価を組み合わせたストリーミング認識アプローチと、単一トーケン出力を生成する分類器を併用して、TGMを適応する。
この構成だけで、TGMは標準安全スイートにまたがって確立されたガードモデルよりも分類品質を改善し、中国語、日本語、韓国語への言語拡張を可能にし、追加の訓練も言語ラベルも必要としない。
また、広く使用されている2つのパブリックガードレールバックボーン、LlamaとGemmaのモデルポータビリティも示す。
プレフィックスSFT(教師付き微調整)により、TGMはプレフィックス入力とフルテキスト入力の動作を調整することで、ストリーミング中の分類品質を維持する。
単一トーケン出力設計はスループットを高め、レイテンシを低減する。
これらのコンポーネントは、ストリーミング対応評価プラクティスを促進しながら、データと計算要件を削減し、より責任のあるAIエコシステムに寄与する。
関連論文リスト
- Detecting Hard-Coded Credentials in Software Repositories via LLMs [0.0]
ソフトウェア開発者は、パスワード、ジェネリックシークレット、プライベートキー、ソフトウェアリポジトリのジェネリックトークンなどの認証情報をハードコードすることが多い。
これらの認証は、潜在的な敵によって悪用され、バックドア攻撃のような悪意ある攻撃を行うために攻撃面を生成する。
最近の検出では、埋め込みモデルを用いてテキスト認証をベクトル化し、予測のために分類器に渡す。
我々のモデルは、ベンチマークデータセットのF1測定値において、現在の最先端よりも13%優れています。
論文 参考訳(メタデータ) (2025-06-16T04:33:48Z) - Generative Pretrained Structured Transformers: Unsupervised Syntactic Language Models at Scale [36.584680344291556]
原文のスクラッチから事前学習が可能な大規模教師なしSLM(Generative Pretrained Structured Transformers, GPST)を提案する。
GPSTは、ゴールドツリーやシーケンシャルトレーニングなど、以前のSLMの制限を回避している。
GPSTは、左から右への文法誘導において、既存の教師なしSLMを著しく上回る。
論文 参考訳(メタデータ) (2024-03-13T06:54:47Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。