Fugu-MT 論文翻訳(概要): SCAR: Sparse Conditioned Autoencoders for Concept Detection and Steering in LLMs

論文の概要: SCAR: Sparse Conditioned Autoencoders for Concept Detection and Steering in LLMs

arxiv url: http://arxiv.org/abs/2411.07122v1
Date: Mon, 11 Nov 2024 16:51:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.545913
Title: SCAR: Sparse Conditioned Autoencoders for Concept Detection and Steering in LLMs
Title（参考訳）: SCAR: LLMにおける概念検出とステアリングのためのスパース条件オートエンコーダ
Authors: Ruben Härle, Felix Friedrich, Manuel Brack, Björn Deiseroth, Patrick Schramowski, Kristian Kersting,
Abstract要約: 本稿では, 生成前の毒性などの概念を検知し, ステアリングするための新しい手法を提案する。 Sparse Conditioned Autoencoder (SCAR)は、非タッチの大規模言語モデルを拡張する単一のトレーニングモジュールである。毒性,安全性,書き込みスタイルの整合性など,さまざまな概念を通じて,このアプローチの有効性を実証する。
参考スコア（独自算出の注目度）: 25.089214466444336
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in generating human-like text, but their output may not be aligned with the user or even produce harmful content. This paper presents a novel approach to detect and steer concepts such as toxicity before generation. We introduce the Sparse Conditioned Autoencoder (SCAR), a single trained module that extends the otherwise untouched LLM. SCAR ensures full steerability, towards and away from concepts (e.g., toxic content), without compromising the quality of the model's text generation on standard evaluation benchmarks. We demonstrate the effective application of our approach through a variety of concepts, including toxicity, safety, and writing style alignment. As such, this work establishes a robust framework for controlling LLM generations, ensuring their ethical and safe deployment in real-world applications.
Abstract（参考訳）: 大きな言語モデル(LLM)は、人間のようなテキストを生成する際、顕著な能力を示したが、その出力はユーザーと一致せず、有害なコンテンツも生成するかもしれない。本稿では, 生成前の毒性などの概念を検知し, ステアリングするための新しい手法を提案する。我々はSparse Conditioned Autoencoder (SCAR) を導入する。 SCARは、標準評価ベンチマークでモデルのテキスト生成の品質を損なうことなく、コンセプト(例えば有毒なコンテンツ)を行き来する、完全なステアビリティを保証する。毒性,安全性,書き込みスタイルの整合性など,さまざまな概念を通じて,このアプローチの有効性を実証する。このように、この研究はLLM世代を制御するための堅牢なフレームワークを確立し、現実世界のアプリケーションに倫理的かつ安全なデプロイを確実にする。

関連論文リスト

SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。 SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文参考訳（メタデータ） (2026-01-13T15:01:38Z)
Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models [3.710103086278309]
大規模言語モデル(LLM)は通常、トレーニング後の段階で安全のために整列される。ユーザに対してリスクをもたらす可能性のある,不適切なアウトプットを生成することも可能だ。この課題は、モデル入力と出力の両方にわたって動作する堅牢なセーフガードの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2025-12-05T00:43:55Z)
TypePilot: Leveraging the Scala Type System for Secure LLM-generated Code [46.747768845221735]
大規模言語モデル(LLM)は、様々なプログラミング言語のコード生成タスクにおいて顕著な習熟度を示している。それらのアウトプットには微妙だが重要な脆弱性があり、セキュリティに敏感なシステムやミッションクリティカルなシステムにデプロイすると重大なリスクが生じる。本稿では,LLM生成コードのセキュリティとロバスト性を高めるために設計されたエージェントAIフレームワークであるTypePilotを紹介する。
論文参考訳（メタデータ） (2025-10-13T08:44:01Z)
SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。 SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。 SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文参考訳（メタデータ） (2025-10-05T10:24:48Z)
SAFER: Probing Safety in Reward Models with Sparse Autoencoder [15.804171763844323]
拡張リワードモデル(textbfSAFER)のためのスパースオートエンコーダを提案する。我々は、報酬モデルアクティベーションにおける人間解釈可能な特徴を明らかにし、安全関連意思決定の洞察を可能にする。実験の結果、SAFERは最小限のデータ修正で精度を低下させるか、安全アライメントを強化することができる。
論文参考訳（メタデータ） (2025-07-01T11:04:03Z)
SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code [7.209766132478914]
LLM生成コードのセキュリティを評価するために特別に設計されたベンチマークであるSafeGenBenchを紹介する。データセットには、幅広い一般的なソフトウェア開発シナリオと脆弱性タイプが含まれている。 SafeGenBench上での最先端LCMの実証評価を通じて,脆弱性のないコードを生成する能力に重大な欠陥があることを明らかにする。
論文参考訳（メタデータ） (2025-06-06T02:48:02Z)
$\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation [9.935219917903858]
本稿では、$texttSAGE$(Safety AI Generic Evaluation)フレームワークを紹介する。 $texttSAGE$は、カスタマイズされた動的害評価用に設計された自動モジュール化フレームワークである。マルチターン会話評価実験により,会話の長さによって害が着実に増加することが判明した。
論文参考訳（メタデータ） (2025-04-28T11:01:08Z)
Hyperbolic Safety-Aware Vision-Language Models [44.06996781749013]
双曲空間の本質的階層的特性を活用することによって、未学習から認知パラダイムへ移行する新しいアプローチを導入する。我々のHySACであるHyperbolic Safety-Aware CLIPは、安全な画像テキストペアと安全でない画像テキストペア間の階層的および非対称的関係をモデル化するために、entailment loss関数を使用します。我々のアプローチは、安全性の認識を向上するだけでなく、視覚言語モデルにおけるコンテンツモデレーションのためのより適応的で解釈可能なフレームワークも確立します。
論文参考訳（メタデータ） (2025-03-15T13:18:04Z)
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文参考訳（メタデータ） (2025-02-03T04:23:33Z)
Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。 SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。 Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文参考訳（メタデータ） (2024-10-04T17:45:15Z)
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文参考訳（メタデータ） (2024-09-17T17:14:41Z)
Zero-Shot Machine-Generated Text Detection Using Mixture of Large Language Models [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。それぞれの強みを組み合わせるための理論的な新しいアプローチを提案する。種々のジェネレータLSMを用いた実験により,検出のロバスト性を効果的に向上することが示唆された。
論文参考訳（メタデータ） (2024-09-11T20:55:12Z)
Can Reinforcement Learning Unlock the Hidden Dangers in Aligned Large Language Models? [3.258629327038072]
大規模言語モデル(LLM)は、自然言語処理における印象的な機能を示している。しかし、これらのモデルによって有害なコンテンツを生成する可能性は持続しているようだ。本稿では,LLMをジェイルブレイクし,敵の引き金を通したアライメントを逆転させる概念について検討する。
論文参考訳（メタデータ） (2024-08-05T17:27:29Z)
ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文参考訳（メタデータ） (2024-07-31T17:48:14Z)
garak: A Framework for Security Probing Large Language Models [16.305837349514505]
garakは、ターゲットとするLarge Language Models(LLM)の脆弱性を発見し、特定するために使用できるフレームワークである。フレームワークのアウトプットは、ターゲットモデルの弱点を記述し、ユニークなコンテキストで脆弱性を構成するものについての情報的な議論に寄与する。
論文参考訳（メタデータ） (2024-06-16T18:18:43Z)
S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。 S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文参考訳（メタデータ） (2024-05-23T05:34:31Z)
RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文参考訳（メタデータ） (2024-03-19T07:25:02Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)
SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文参考訳（メタデータ） (2023-11-01T22:46:31Z)
Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文参考訳（メタデータ） (2023-10-16T02:11:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。