論文の概要: Hazards from Increasingly Accessible Fine-Tuning of Downloadable
Foundation Models
- arxiv url: http://arxiv.org/abs/2312.14751v1
- Date: Fri, 22 Dec 2023 15:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 14:41:02.349962
- Title: Hazards from Increasingly Accessible Fine-Tuning of Downloadable
Foundation Models
- Title(参考訳): ダウンロードファウンデーションモデルのアクセシブルな微調整の危険性
- Authors: Alan Chan, Ben Bucknall, Herbie Bradley, David Krueger
- Abstract要約: ダウンロード可能なモデルの微調整がますます進むと、ハザードが増加するのではないか、と私たちは主張する。
我々は、予防措置や、よりアクセスしやすい微調整の利点について論じる。
リスクに関する確実性については,対策の急激な発展の必要性を強調して結論付けている。
- 参考スコア(独自算出の注目度): 8.454466460303282
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Public release of the weights of pretrained foundation models, otherwise
known as downloadable access \citep{solaiman_gradient_2023}, enables
fine-tuning without the prohibitive expense of pretraining. Our work argues
that increasingly accessible fine-tuning of downloadable models may increase
hazards. First, we highlight research to improve the accessibility of
fine-tuning. We split our discussion into research that A) reduces the
computational cost of fine-tuning and B) improves the ability to share that
cost across more actors. Second, we argue that increasingly accessible
fine-tuning methods may increase hazard through facilitating malicious use and
making oversight of models with potentially dangerous capabilities more
difficult. Third, we discuss potential mitigatory measures, as well as benefits
of more accessible fine-tuning. Given substantial remaining uncertainty about
hazards, we conclude by emphasizing the urgent need for the development of
mitigations.
- Abstract(参考訳): プリトレーニングされた基礎モデルの重み付けの公開リリースは、ダウンロード可能なアクセス \citep{solaiman_gradient_2023} として知られている。
私たちの研究は、ダウンロード可能なモデルの微調整がますます危険を増す可能性があると主張している。
まず,微調整のアクセシビリティ向上に関する研究を強調する。
A)微調整の計算コストを削減し(B)、より多くのアクター間でそのコストを共有する能力を向上させる研究に分割した。
第2に,悪質な使用を促進し,潜在的に危険であるモデルの監視を困難にすることで,よりアクセスしやすい微調整手法が危険を増大させる可能性がある。
第3に,潜在的な緩和策と,よりアクセスしやすい微調整の利点について考察する。
リスクに関する確実性については,対策の急激な発展の必要性を強調して結論付ける。
関連論文リスト
- An Adversarial Perspective on Machine Unlearning for AI Safety [22.639683142004372]
この作業は、アンラーニングと従来のトレーニング後の安全性の根本的な違いに挑戦する。
既存のjailbreakメソッドは、これまで未学習に対して効果がないと報告されていたが、慎重に適用した場合に成功できることを実証する。
例えば、アクティベーション空間における10の無関係な例を微調整したり、特定の方向を除去することで、RMUで編集されたモデルに対して最も危険な能力を回復できることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:32:19Z) - Sparsity-based Safety Conservatism for Constrained Offline Reinforcement Learning [4.0847743592744905]
強化学習(Reinforcement Learning, RL)は、自律運転やロボット操作といった意思決定分野で大きな成功を収めている。
RLのトレーニングアプローチは、"オン・ポリティクス(on-policy)"サンプリングを中心にしているが、データを完全には活用していない。
オフラインRLは魅力的な代替手段として現れており、特に追加実験を行うことは実用的ではない。
論文 参考訳(メタデータ) (2024-07-17T20:57:05Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Towards Safety and Helpfulness Balanced Responses via Controllable Large Language Models [64.5204594279587]
安全性を優先するモデルでは、ユーザがエンゲージメントやアシストを減らし、利便性の優先順位付けが害をもたらす可能性がある。
大規模言語モデルにおける両方の属性を制御することにより,多様なユースケースにおける安全性と利便性のバランスをとることを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:06Z) - Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge [17.3048898399324]
オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。
特定の入力によって隠れた悪意のある振る舞いが引き起こされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃。
本稿では,バックドアモデルと他の同質モデルとを組み合わせることで,バックドアの脆弱性を著しく改善することができることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T16:37:08Z) - Privacy-Preserving Distributed Learning for Residential Short-Term Load
Forecasting [11.185176107646956]
電力システムの負荷データは、住宅ユーザの日常のルーチンを不注意に明らかにし、彼らの財産のセキュリティにリスクを及ぼす可能性がある。
我々はマルコフスイッチ方式の分散学習フレームワークを導入し、その収束は厳密な理論的解析によって実証される。
実世界の電力系統負荷データを用いたケーススタディにより,提案アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2024-02-02T16:39:08Z) - A Robust Adversary Detection-Deactivation Method for Metaverse-oriented
Collaborative Deep Learning [13.131323206843733]
本稿では,潜在的な悪意のある参加者のアクセスを制限し,隔離する逆検出・不活性化手法を提案する。
また,Multiview CDLのケースで詳細な保護分析を行い,その手法を用いて,有害アクセスを効果的に防止できることを示した。
論文 参考訳(メタデータ) (2023-10-21T06:45:18Z) - Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard
Security Attacks [67.86285142381644]
命令追従型大規模言語モデルの最近の進歩は、悪意のある目的のために二重使用リスクを増幅する。
命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。
本研究では,LLMがヘイトスピーチや詐欺などの悪意のあるコンテンツをターゲットにすることができることを示す。
論文 参考訳(メタデータ) (2023-02-11T15:57:44Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Fault-Aware Design and Training to Enhance DNNs Reliability with
Zero-Overhead [67.87678914831477]
ディープニューラルネットワーク(DNN)は、幅広い技術的進歩を可能にする。
最近の知見は、過渡的なハードウェア欠陥がモデル予測を劇的に損なう可能性があることを示唆している。
本研究では,トレーニングとモデル設計の両面で信頼性の問題に取り組むことを提案する。
論文 参考訳(メタデータ) (2022-05-28T13:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。