論文の概要: SCAR: Sparse Conditioned Autoencoders for Concept Detection and Steering in LLMs
- arxiv url: http://arxiv.org/abs/2411.07122v1
- Date: Mon, 11 Nov 2024 16:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:10:12.412762
- Title: SCAR: Sparse Conditioned Autoencoders for Concept Detection and Steering in LLMs
- Title(参考訳): SCAR: LLMにおける概念検出とステアリングのためのスパース条件オートエンコーダ
- Authors: Ruben Härle, Felix Friedrich, Manuel Brack, Björn Deiseroth, Patrick Schramowski, Kristian Kersting,
- Abstract要約: 本稿では, 生成前の毒性などの概念を検知し, ステアリングするための新しい手法を提案する。
Sparse Conditioned Autoencoder (SCAR)は、非タッチの大規模言語モデルを拡張する単一のトレーニングモジュールである。
毒性,安全性,書き込みスタイルの整合性など,さまざまな概念を通じて,このアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 25.089214466444336
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in generating human-like text, but their output may not be aligned with the user or even produce harmful content. This paper presents a novel approach to detect and steer concepts such as toxicity before generation. We introduce the Sparse Conditioned Autoencoder (SCAR), a single trained module that extends the otherwise untouched LLM. SCAR ensures full steerability, towards and away from concepts (e.g., toxic content), without compromising the quality of the model's text generation on standard evaluation benchmarks. We demonstrate the effective application of our approach through a variety of concepts, including toxicity, safety, and writing style alignment. As such, this work establishes a robust framework for controlling LLM generations, ensuring their ethical and safe deployment in real-world applications.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間のようなテキストを生成する際、顕著な能力を示したが、その出力はユーザーと一致せず、有害なコンテンツも生成するかもしれない。
本稿では, 生成前の毒性などの概念を検知し, ステアリングするための新しい手法を提案する。
我々はSparse Conditioned Autoencoder (SCAR) を導入する。
SCARは、標準評価ベンチマークでモデルのテキスト生成の品質を損なうことなく、コンセプト(例えば有毒なコンテンツ)を行き来する、完全なステアビリティを保証する。
毒性,安全性,書き込みスタイルの整合性など,さまざまな概念を通じて,このアプローチの有効性を実証する。
このように、この研究はLLM世代を制御するための堅牢なフレームワークを確立し、現実世界のアプリケーションに倫理的かつ安全なデプロイを確実にする。
関連論文リスト
- Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Zero-Shot Machine-Generated Text Detection Using Mixture of Large Language Models [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。
それぞれの強みを組み合わせるための理論的な新しいアプローチを提案する。
種々のジェネレータLSMを用いた実験により,検出のロバスト性を効果的に向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-11T20:55:12Z) - Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models? [3.258629327038072]
大規模言語モデル(LLM)は、自然言語処理における印象的な機能を示している。
しかし、これらのモデルによって有害なコンテンツを生成する可能性は持続しているようだ。
本稿では,LLMをジェイルブレイクし,敵の引き金を通したアライメントを逆転させる概念について検討する。
論文 参考訳(メタデータ) (2024-08-05T17:27:29Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - garak: A Framework for Security Probing Large Language Models [16.305837349514505]
garakは、ターゲットとするLarge Language Models(LLM)の脆弱性を発見し、特定するために使用できるフレームワークである。
フレームワークのアウトプットは、ターゲットモデルの弱点を記述し、ユニークなコンテキストで脆弱性を構成するものについての情報的な議論に寄与する。
論文 参考訳(メタデータ) (2024-06-16T18:18:43Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。
フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。