Fugu-MT 論文翻訳(概要): Badllama 3: removing safety finetuning from Llama 3 in minutes

論文の概要: Badllama 3: removing safety finetuning from Llama 3 in minutes

arxiv url: http://arxiv.org/abs/2407.01376v1
Date: Mon, 1 Jul 2024 15:29:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 21:00:48.349524
Title: Badllama 3: removing safety finetuning from Llama 3 in minutes
Title（参考訳）: バドラマ3号:ラマ3号から安全微調整を数分で取り除く
Authors: Dmitrii Volkov,
Abstract要約: 攻撃者がモデル重みにアクセスできる場合、LLMの安全性の微調整は容易に回避できることを示す。我々は、QLoRA、ReFT、Orthoの3つの最先端微調整手法を評価し、アルゴリズムの進歩が継続的にジェイルブレーキング性能を向上することを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We show that extensive LLM safety fine-tuning is easily subverted when an attacker has access to model weights. We evaluate three state-of-the-art fine-tuning methods-QLoRA, ReFT, and Ortho-and show how algorithmic advances enable constant jailbreaking performance with cuts in FLOPs and optimisation power. We strip safety fine-tuning from Llama 3 8B in one minute and Llama 3 70B in 30 minutes on a single GPU, and sketch ways to reduce this further.
Abstract（参考訳）: 我々は,攻撃者がモデル重みにアクセスできる場合,LLMの安全性を詳細に調整することは容易であることを示す。我々は、最先端の細調整手法であるQLoRA、ReFT、Orthoを3つ評価し、FLOPのカットと最適化能力により、アルゴリズムの進歩によって継続的にジェイルブレーキング性能が向上することを示す。 Llama 3 8Bを1分で、Llama 3 70Bを1つのGPUで30分で、安全性の微調整を1分で行う。

関連論文リスト

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity [52.88892280536302]
SparseLoRAは,コンテキスト空間の空間的分散によって微調整を高速化する手法である。 SparseLoRAは計算コストを最大2.2倍、測定速度を最大1.6倍に削減する。
論文参考訳（メタデータ） (2025-06-19T17:53:34Z)
FLAME: Flexible LLM-Assisted Moderation Engine [2.966082563853265]
フレキシブル LLM-Assisted Moderation Engine (FLAME) について紹介する。ユーザクエリを分析する従来のサーキットブレーキング方法とは異なり、FLAMEはモデル応答を評価する。実験の結果,FLAMEは現在のモデレーションシステムよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-02-13T11:05:55Z)
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文参考訳（メタデータ） (2025-01-30T02:47:09Z)
LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
LIAR(Leveraging Inference Time Alignment to jailbReak)は、ジェイルブレイク攻撃に適した高速で効率的なNのアプローチである。その結果, 最適Nアプローチは, 整列LLMのロバスト性を評価する上で, 単純かつ高効率な戦略であることがわかった。
論文参考訳（メタデータ） (2024-12-06T18:02:59Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt [65.25603275491544]
3DGS-LM, 3D Gaussian Splatting(3DGS)の再構築を高速化する新しい手法を提案する。提案手法は元の3DGSよりも30%高速で, 再現品質の最適化が可能である。
論文参考訳（メタデータ） (2024-09-19T16:31:44Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning [18.102930806071978]
Outlier-weighed Layerwise Smpled Low-Rank Projection (OwLore) はメモリ効率の良い微調整手法である。 OwLoreは、完全な微調整を含むベースラインアプローチを一貫して上回る。
論文参考訳（メタデータ） (2024-05-28T17:22:22Z)
Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文参考訳（メタデータ） (2023-10-05T17:12:17Z)
ModuLoRA: Finetuning 2-Bit LLMs on Consumer GPUs by Integrating with Modular Quantizers [38.16040503271727]
大規模言語モデル(LLM)のためのメモリ効率の高い微調整アルゴリズムを提案する。 lploraは、テキスト分類、自然言語推論、タスクに続く命令に対する競合性能を、既存のアプローチよりもはるかに少ないメモリで実現している。私たちはまた、一般的な要約タスクにおいて最先端のROUGEスコアを超えます。
論文参考訳（メタデータ） (2023-09-28T02:55:01Z)
TriNet: stabilizing self-supervised learning from complete or slow collapse [35.427919139877275]
本稿では,崩壊を防止し,事前学習を安定化するための新しい三分岐アーキテクチャTriNetを提案する。実験結果から,提案手法は事前学習の安定化と高速化を実現し,単語誤り率(WERR)を5.32%削減できることがわかった。
論文参考訳（メタデータ） (2022-12-12T05:55:07Z)
Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。 P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。 P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2022-05-24T06:15:51Z)
Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文参考訳（メタデータ） (2020-09-21T15:37:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。