論文の概要: Backtracking for Safety
- arxiv url: http://arxiv.org/abs/2503.08919v1
- Date: Tue, 11 Mar 2025 22:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 21:17:52.539815
- Title: Backtracking for Safety
- Title(参考訳): 安全のためのバックトラック
- Authors: Bilgehan Sel, Dingcheng Li, Phillip Wallis, Vaishakh Keshava, Ming Jin, Siddhartha Reddy Jonnalagadda,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにわたって顕著な能力を示してきたが、その安全性と人間の価値との整合性は依然として不可欠である。
教師付き微調整や強化学習に基づくアプローチのような現在の安全アライメント手法は、敵の攻撃に対する脆弱性を示す可能性がある。
本稿では,これらの制約に対処する新しいバックトラック手法を提案する。
- 参考スコア(独自算出の注目度): 11.141166381133054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across various tasks, but ensuring their safety and alignment with human values remains crucial. Current safety alignment methods, such as supervised fine-tuning and reinforcement learning-based approaches, can exhibit vulnerabilities to adversarial attacks and often result in shallow safety alignment, primarily focusing on preventing harmful content in the initial tokens of the generated output. While methods like resetting can help recover from unsafe generations by discarding previous tokens and restarting the generation process, they are not well-suited for addressing nuanced safety violations like toxicity that may arise within otherwise benign and lengthy generations. In this paper, we propose a novel backtracking method designed to address these limitations. Our method allows the model to revert to a safer generation state, not necessarily at the beginning, when safety violations occur during generation. This approach enables targeted correction of problematic segments without discarding the entire generated text, thereby preserving efficiency. We demonstrate that our method dramatically reduces toxicity appearing through the generation process with minimal impact to efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにわたって顕著な能力を示してきたが、その安全性と人間の価値との整合性は依然として不可欠である。
教師付き微調整や強化学習に基づくアプローチのような現在の安全アライメント手法は、敵の攻撃に対する脆弱性を示し、しばしば浅い安全アライメントをもたらす。
リセットのような手法は、以前のトークンを捨てて生成プロセスを再起動することで、安全でない世代から回復するのに役立つが、他の世代や長い世代で発生する有害性のような悪質な安全違反に対処するには適していない。
本稿では,これらの制約に対処する新しいバックトラッキング手法を提案する。
本手法では, 生成時に安全違反が発生した場合に, 必ずしも初期ではなく, より安全な生成状態に戻すことができる。
このアプローチにより、生成したテキスト全体を破棄することなく問題セグメントを対象とする修正が可能となり、効率が保たれる。
本手法は, 生成過程を通じて発生する毒性を, 効率に最小限の影響で劇的に低減することを示した。
関連論文リスト
- Safety Pretraining: Toward the Next Generation of Safe AI [61.2816320807586]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
i)600Bトークンをフィルタするために使用される1万GPT-4ラベルの例に基づいてトレーニングされた安全分類器,(ii)有害なWebデータのテキスト化によって生成された,これまでで最大の合成安全データセット,(iv)安全でないコンテンツのフラグ付けのために事前トレーニング中に注入されたハームフルネス・タグアノテーション。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (2025-04-02T15:59:31Z) - Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。
我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。
UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文 参考訳(メタデータ) (2025-03-14T17:00:22Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - Dark Miner: Defend against undesired generation for text-to-image diffusion models [13.86760397597925]
我々は消去タスクを分析し、既存の手法では不要な生成の総確率の最小化を保証できないことを指摘した。
我々は、採掘、検証、回避を含む3段階のプロセスであるダークマイナーを提案する。
本手法は, 従来手法と比較して, 特に複数対逆攻撃において, 消去効果と防御効果が向上する。
論文 参考訳(メタデータ) (2024-09-26T09:48:24Z) - Backtracking Improves Generation Safety [27.214507875399086]
本稿では,言語モデルが“アンド”し,自身の安全でない生成から回復することを可能にする手法であるバックトラッキングを提案する。
バックトラックにトレーニングされたモデルは、ベースラインモデルよりも一貫して安全であることを示す。
論文 参考訳(メタデータ) (2024-09-22T20:28:40Z) - Evaluating Defences against Unsafe Feedback in RLHF [26.872318173182414]
本稿では、強化学習による安全でないフィードバックからの学習について考察する。
安全に配慮したLLMは有害なテキストを生成することで、安全でない行動空間を容易に探索できることがわかった。
この脆弱性から保護するために、我々は、有害な微調整の防御を「単純」と「明示」の両方に適応させる。
論文 参考訳(メタデータ) (2024-09-19T17:10:34Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.36220909956064]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - Verification-Guided Shielding for Deep Reinforcement Learning [4.418183967223081]
Deep Reinforcement Learning (DRL)は、現実世界の課題を解決するための効果的なアプローチとして登場した。
正式な安全保証を提供することで、この問題に対処する様々な方法が提案されている。
これら2つの手法を統合することでDRLの信頼性ギャップを橋渡しする新しい手法である検証誘導遮蔽法を提案する。
論文 参考訳(メタデータ) (2024-06-10T17:44:59Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。