Fugu-MT 論文翻訳(概要): Maybe I Should Not Answer That, but... Do LLMs Understand The Safety of Their Inputs?

論文の概要: Maybe I Should Not Answer That, but... Do LLMs Understand The Safety of Their Inputs?

arxiv url: http://arxiv.org/abs/2502.16174v1
Date: Sat, 22 Feb 2025 10:31:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.021776
Title: Maybe I Should Not Answer That, but... Do LLMs Understand The Safety of Their Inputs?
Title（参考訳）: LLMは入力の安全性を理解しているのか?
Authors: Maciej Chrabąszcz, Filip Szatkowski, Bartosz Wójcik, Jan Dubiński, Tomasz Trzciński,
Abstract要約: このような一般化のための既存手法について検討し、それらが不十分であることを示す。性能劣化を回避し、安全な性能を維持するために、我々は2段階のフレームワークを提唱する。最後のトークンに対する最後の隠れ状態は、堅牢なパフォーマンスを提供するのに十分であることがわかった。
参考スコア（独自算出の注目度）: 0.836362570897926
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ensuring the safety of the Large Language Model (LLM) is critical, but currently used methods in most cases sacrifice the model performance to obtain increased safety or perform poorly on data outside of their adaptation distribution. We investigate existing methods for such generalization and find them insufficient. Surprisingly, while even plain LLMs recognize unsafe prompts, they may still generate unsafe responses. To avoid performance degradation and preserve safe performance, we advocate for a two-step framework, where we first identify unsafe prompts via a lightweight classifier, and apply a "safe" model only to such prompts. In particular, we explore the design of the safety detector in more detail, investigating the use of different classifier architectures and prompting techniques. Interestingly, we find that the final hidden state for the last token is enough to provide robust performance, minimizing false positives on benign data while performing well on malicious prompt detection. Additionally, we show that classifiers trained on the representations from different model layers perform comparably on the latest model layers, indicating that safety representation is present in the LLMs' hidden states at most model stages. Our work is a step towards efficient, representation-based safety mechanisms for LLMs.
Abstract（参考訳）: LLM(Large Language Model)の安全性の確保は重要であるが、現在ではほとんどのケースで使われている手法は、モデルの性能を犠牲にして安全性を高めたり、適応分布外のデータに悪影響を与える。このような一般化のための既存手法について検討し、それらが不十分であることを示す。意外なことに、普通のLLMでさえ、安全でないプロンプトを認識する一方で、安全でない応答を生成する可能性がある。性能劣化を回避し、安全な性能を維持するために、我々はまず軽量な分類器を通して安全でないプロンプトを識別し、そのようなプロンプトのみに「安全な」モデルを適用する2段階のフレームワークを提案する。特に,安全検知器の設計についてより詳細に検討し,異なる分類器アーキテクチャの使用と促進技術について検討する。興味深いことに、最後のトークンの最終的な隠蔽状態は、悪質なプロンプト検出において良好に動作しながら、良質なデータに対する偽陽性を最小限に抑え、堅牢なパフォーマンスを提供するのに十分である。さらに、異なるモデル層からの表現に基づいて訓練された分類器が、最新のモデル層上で比較可能であり、ほとんどのモデルステージにおいて、LLMの隠れ状態に安全表現が存在することを示す。我々の研究は、LLMの効率的な表現に基づく安全メカニズムへの一歩です。

関連論文リスト

Light Alignment Improves LLM Safety via Model Self-Reflection with a Single Neuron [28.570811283705556]
大規模言語モデル(LLM)の安全性は、その開発における基本的側面としてますます高まっている。 LLMの既存の安全アライメントは、主にポストトレーニング手法によって達成される。本稿では,専門家モデルの低コストトレーニングのみを要し,単一のニューロンをゲーティング機構として利用する安全対応復号法を提案する。
論文参考訳（メタデータ） (2026-02-02T12:21:54Z)
Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models [3.710103086278309]
大規模言語モデル(LLM)は通常、トレーニング後の段階で安全のために整列される。ユーザに対してリスクをもたらす可能性のある,不適切なアウトプットを生成することも可能だ。この課題は、モデル入力と出力の両方にわたって動作する堅牢なセーフガードの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2025-12-05T00:43:55Z)
Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers [10.979571091316535]
既存のアライメントアプローチは費用がかかり、柔軟性がないため、新たな要件が発生すると再トレーニングが必要になる。推論時アライメントに対する最近の取り組みは、これらの制限の一部を緩和するが、モデル内部へのアクセスを前提としている。モデルに依存しない安全アライメントのためのブラックボックスフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-10T12:32:43Z)
Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。 UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文参考訳（メタデータ） (2025-03-14T17:00:22Z)
SafeEraser: Enhancing Safety in Multimodal Large Language Models through Multimodal Machine Unlearning [19.9759585536617]
MLLM(Multimodal Large Language Models)のための安全アンラーニングベンチマークであるSAFEERASERを提案する。我々は2つの観点から非学習手法を総合的に評価する。実験により、PD損失と既存の未学習手法を組み合わせることで、過剰な鍛造を効果的に防止できることが示された。
論文参考訳（メタデータ） (2025-02-18T04:09:46Z)
On Almost Surely Safe Alignment of Large Language Models at Inference-Time [20.5164976103514]
安全応答をほぼ確実に生成することを目的とした,LLMに対する新しい推論時間アライメント手法を提案する。我々は、安全制約の進化を追跡し、安全でない世代を動的に罰する安全状態を強化する。我々は,潜在空間におけるMDPを十分に大きな罰則で解く際に,与えられたコストモデルに対して公式な安全保証を示す。
論文参考訳（メタデータ） (2025-02-03T09:59:32Z)
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文参考訳（メタデータ） (2025-02-03T04:23:33Z)
Locking Down the Finetuned LLMs Safety [33.56657036839617]
特定の下流タスクのために最適化するためには、追加のデータセット上での微調整大型言語モデル(LLM)が必要であることが多い。既存の安全アライメント対策は、推論中の有害な行動を制限するものであり、微調整時の安全性リスクを軽減するには不十分である。そこで,本研究では,手直し後の堅牢な安全性を維持する新しいアライメント介入手法であるSafetyLockを紹介する。
論文参考訳（メタデータ） (2024-10-14T09:58:29Z)
Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.476222570886483]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。 LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文参考訳（メタデータ） (2024-10-09T12:09:30Z)
Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
整列 LLM の内部パラメータは、微調整攻撃を受けた場合のセキュリティ劣化に対して脆弱である。我々の研究は、パラメータレベルでのLLMの整列化におけるセキュリティのメカニズムを明らかにし、モデルの中央に小さな連続した層を識別する。そこで本稿では, 安全部分調整(SPPFT)方式を提案する。
論文参考訳（メタデータ） (2024-08-30T04:35:59Z)
SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Towards Safety and Helpfulness Balanced Responses via Controllable Large Language Models [64.5204594279587]
安全性を優先するモデルでは、ユーザがエンゲージメントやアシストを減らし、利便性の優先順位付けが害をもたらす可能性がある。大規模言語モデルにおける両方の属性を制御することにより,多様なユースケースにおける安全性と利便性のバランスをとることを提案する。
論文参考訳（メタデータ） (2024-04-01T17:59:06Z)
On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文参考訳（メタデータ） (2024-01-31T17:28:24Z)
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文参考訳（メタデータ） (2023-10-05T17:12:17Z)
Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions [79.1824160877979]
いくつかの一般的な命令調整モデルは非常に安全でないことを示す。私たちの安全チューニングは、標準ベンチマークによって測定されたモデルの性能や有用性を著しく低下させません。
論文参考訳（メタデータ） (2023-09-14T17:23:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。