論文の概要: Attention Shift: Steering AI Away from Unsafe Content
- arxiv url: http://arxiv.org/abs/2410.04447v1
- Date: Sun, 6 Oct 2024 11:16:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 07:25:54.533703
- Title: Attention Shift: Steering AI Away from Unsafe Content
- Title(参考訳): 注意のシフト: 安全でないコンテンツからAIを操る
- Authors: Shivank Garg, Manyana Tiwari,
- Abstract要約: 本研究では, 最先端生成モデルにおける安全でない, 有害なコンテンツの生成について検討した。
提案手法は,非安全概念を推論中に追加のトレーニングを伴わずに取り除くことを目的とした,新たなトレーニングフリーアプローチである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the generation of unsafe or harmful content in state-of-the-art generative models, focusing on methods for restricting such generations. We introduce a novel training-free approach using attention reweighing to remove unsafe concepts without additional training during inference. We compare our method against existing ablation methods, evaluating the performance on both, direct and adversarial jailbreak prompts, using qualitative and quantitative metrics. We hypothesize potential reasons for the observed results and discuss the limitations and broader implications of content restriction.
- Abstract(参考訳): 本研究は, 最先端の生成モデルにおける安全でない, 有害なコンテンツの生成について検討し, それらの世代を制限する方法に着目した。
提案手法は,非安全概念を推論中に追加のトレーニングを伴わずに取り除くことを目的とした,新たなトレーニングフリーアプローチである。
我々は,従来のアブレーション法と比較し,質的,定量的な測定値を用いて,直接的および敵対的ジェイルブレイクプロンプトの性能評価を行った。
本研究は,観察結果の潜在的な理由を仮説化し,コンテンツ制限の限界と広範な影響について議論する。
関連論文リスト
- Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Learn What NOT to Learn: Towards Generative Safety in Chatbots [40.8106410437709]
正負の学習信号と負の学習信号の両方から学習することで一般化を高めるために、対照的な損失を生かした「LOT」(Learn NOT to)という新しいフレームワークを提案する。
LOTは毒性を最大4倍に減らし、ベースラインモデルに比べて4倍から6倍のエンゲージネスとフラエンシを達成している。
論文 参考訳(メタデータ) (2023-04-21T18:59:06Z) - ADDMU: Detection of Far-Boundary Adversarial Examples with Data and
Model Uncertainty Estimation [125.52743832477404]
AED(Adversarial Examples Detection)は、敵攻撃に対する重要な防御技術である。
本手法は, 正逆検出とFB逆検出の2種類の不確実性推定を組み合わせた新しい手法である textbfADDMU を提案する。
提案手法は,各シナリオにおいて,従来の手法よりも3.6と6.0のEmphAUC点が優れていた。
論文 参考訳(メタデータ) (2022-10-22T09:11:12Z) - Protecting Split Learning by Potential Energy Loss [70.81375125791979]
我々は、分割学習の前方埋め込みからのプライバシー漏洩に焦点を当てる。
我々は、前方埋め込みをより「複雑化」させるためのエネルギー損失の可能性を提案する。
論文 参考訳(メタデータ) (2022-10-18T06:21:11Z) - Safe Exploration Method for Reinforcement Learning under Existence of
Disturbance [1.1470070927586016]
我々は、障害の存在下での強化学習における安全な探索問題に対処する。
制御対象と外乱の部分的事前知識を用いた安全な探索手法を提案する。
逆振り子と4バー並列リンクロボットマニピュレータの数値シミュレーションにより,提案手法の有効性と有効性について述べる。
論文 参考訳(メタデータ) (2022-09-30T13:00:33Z) - Risk Consistent Multi-Class Learning from Label Proportions [64.0125322353281]
本研究は,バッグにトレーニングインスタンスを提供するMCLLP設定によるマルチクラス学習に対処する。
既存のほとんどのMCLLPメソッドは、インスタンスの予測や擬似ラベルの割り当てにバッグワイズな制約を課している。
経験的リスク最小化フレームワークを用いたリスク一貫性手法を提案する。
論文 参考訳(メタデータ) (2022-03-24T03:49:04Z) - Multicriteria interpretability driven Deep Learning [0.0]
ディープラーニングの手法はパフォーマンスで有名だが、その解釈可能性の欠如は、高い文脈での学習を妨げている。
近年のモデル手法では、モデルの内部動作をリバースエンジニアリングすることで、ポストホック解釈可能性法を提供することでこの問題に対処している。
本稿では,目的関数に知識を注入することで,モデルの結果に特徴的影響を制御できるマルチクレータ非依存手法を提案する。
論文 参考訳(メタデータ) (2021-11-28T09:41:13Z) - Adversarial Attack for Uncertainty Estimation: Identifying Critical
Regions in Neural Networks [0.0]
本稿では,ニューラルネットワークにおける決定境界付近のデータポイントをキャプチャする手法を提案する。
不確実性推定は、モデルのパラメータに摂動を与える以前の研究とは異なり、入力摂動から導かれる。
提案手法は,他の手法よりも優れた性能を示し,機械学習におけるモデル不確実性を捉えるリスクが低いことを示した。
論文 参考訳(メタデータ) (2021-07-15T21:30:26Z) - Inspect, Understand, Overcome: A Survey of Practical Methods for AI
Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。
近年,これらの安全対策を目的とした最先端技術動物園が出現している。
本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文 参考訳(メタデータ) (2021-04-29T09:54:54Z) - Recipes for Safety in Open-domain Chatbots [32.31067267979087]
より安全なモデルのトレーニングと評価のための新しいHuman-and-in-the-loopフレームワークを提案する。
我々はこれらの手法を比較して実験を行い、新しい手法は自動評価や人的評価によって測定された既存のモデルよりも安全であることがわかった。
次に、モデルの障害ケースを分析して、この作業の限界について論じます。
論文 参考訳(メタデータ) (2020-10-14T13:26:39Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。