論文の概要: Hazards from Increasingly Accessible Fine-Tuning of Downloadable
Foundation Models
- arxiv url: http://arxiv.org/abs/2312.14751v1
- Date: Fri, 22 Dec 2023 15:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 14:41:02.349962
- Title: Hazards from Increasingly Accessible Fine-Tuning of Downloadable
Foundation Models
- Title(参考訳): ダウンロードファウンデーションモデルのアクセシブルな微調整の危険性
- Authors: Alan Chan, Ben Bucknall, Herbie Bradley, David Krueger
- Abstract要約: ダウンロード可能なモデルの微調整がますます進むと、ハザードが増加するのではないか、と私たちは主張する。
我々は、予防措置や、よりアクセスしやすい微調整の利点について論じる。
リスクに関する確実性については,対策の急激な発展の必要性を強調して結論付けている。
- 参考スコア(独自算出の注目度): 8.454466460303282
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Public release of the weights of pretrained foundation models, otherwise
known as downloadable access \citep{solaiman_gradient_2023}, enables
fine-tuning without the prohibitive expense of pretraining. Our work argues
that increasingly accessible fine-tuning of downloadable models may increase
hazards. First, we highlight research to improve the accessibility of
fine-tuning. We split our discussion into research that A) reduces the
computational cost of fine-tuning and B) improves the ability to share that
cost across more actors. Second, we argue that increasingly accessible
fine-tuning methods may increase hazard through facilitating malicious use and
making oversight of models with potentially dangerous capabilities more
difficult. Third, we discuss potential mitigatory measures, as well as benefits
of more accessible fine-tuning. Given substantial remaining uncertainty about
hazards, we conclude by emphasizing the urgent need for the development of
mitigations.
- Abstract(参考訳): プリトレーニングされた基礎モデルの重み付けの公開リリースは、ダウンロード可能なアクセス \citep{solaiman_gradient_2023} として知られている。
私たちの研究は、ダウンロード可能なモデルの微調整がますます危険を増す可能性があると主張している。
まず,微調整のアクセシビリティ向上に関する研究を強調する。
A)微調整の計算コストを削減し(B)、より多くのアクター間でそのコストを共有する能力を向上させる研究に分割した。
第2に,悪質な使用を促進し,潜在的に危険であるモデルの監視を困難にすることで,よりアクセスしやすい微調整手法が危険を増大させる可能性がある。
第3に,潜在的な緩和策と,よりアクセスしやすい微調整の利点について考察する。
リスクに関する確実性については,対策の急激な発展の必要性を強調して結論付ける。
関連論文リスト
- Towards Safety and Helpfulness Balanced Responses via Controllable Large Language Models [64.5204594279587]
安全性を優先するモデルでは、ユーザがエンゲージメントやアシストを減らし、利便性の優先順位付けが害をもたらす可能性がある。
大規模言語モデルにおける両方の属性を制御することにより,多様なユースケースにおける安全性と利便性のバランスをとることを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:06Z) - From Representational Harms to Quality-of-Service Harms: A Case Study on Llama 2 Safety Safeguards [4.0645651835677565]
我々は、既に緩和されたバイアスのモデルを評価することにより、安全対策の有効性を検討する。
非有毒なプロンプトのセットを作成し、それをLlamaモデルの評価に用いる。
安全と健康のトレードオフは、サービス品質の害につながる可能性のある特定の人口集団にとってより顕著である。
論文 参考訳(メタデータ) (2024-03-20T00:22:38Z) - Privacy-Preserving Distributed Learning for Residential Short-Term Load
Forecasting [11.185176107646956]
電力システムの負荷データは、住宅ユーザの日常のルーチンを不注意に明らかにし、彼らの財産のセキュリティにリスクを及ぼす可能性がある。
我々はマルコフスイッチ方式の分散学習フレームワークを導入し、その収束は厳密な理論的解析によって実証される。
実世界の電力系統負荷データを用いたケーススタディにより,提案アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2024-02-02T16:39:08Z) - LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B [0.11705094053512542]
Llama 2-Chatの重みを微調整することで,言語モデルにおける安全性トレーニングの堅牢性について検討する。
1モデルあたり200ドル未満の予算と1GPUのみを使用して、Llama 2-Chatモデルの7B、13B、70Bの安全性トレーニングを成功裏に実施しました。
逆微調整は実用的かつ効果的であることを示し、それゆえ、微調整によるリスク評価がリスク評価の中核となるべきであると論じる。
論文 参考訳(メタデータ) (2023-10-31T16:55:06Z) - A Robust Adversary Detection-Deactivation Method for Metaverse-oriented
Collaborative Deep Learning [13.131323206843733]
本稿では,潜在的な悪意のある参加者のアクセスを制限し,隔離する逆検出・不活性化手法を提案する。
また,Multiview CDLのケースで詳細な保護分析を行い,その手法を用いて,有害アクセスを効果的に防止できることを示した。
論文 参考訳(メタデータ) (2023-10-21T06:45:18Z) - Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard
Security Attacks [67.86285142381644]
命令追従型大規模言語モデルの最近の進歩は、悪意のある目的のために二重使用リスクを増幅する。
命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。
本研究では,LLMがヘイトスピーチや詐欺などの悪意のあるコンテンツをターゲットにすることができることを示す。
論文 参考訳(メタデータ) (2023-02-11T15:57:44Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - How to Steer Your Adversary: Targeted and Efficient Model Stealing
Defenses with Gradient Redirection [16.88718696087103]
グラデーション・リダイレクト(グラデーション・リダイレクト)と呼ばれるモデルステイニング・ディフェンスに対する新しいアプローチを提案する。
このアプローチのコアとなるのは、敵のトレーニング更新をターゲットとして操作するための、証明可能な最適かつ効率的なアルゴリズムです。
ネットワークサロゲートの改善と新しい協調防衛戦略を組み合わせることで、GRAD$2$と呼ばれる勾配リダイレクトディフェンスは、小さなユーティリティトレードオフと計算オーバーヘッドの低減を実現します。
論文 参考訳(メタデータ) (2022-06-28T17:04:49Z) - Fault-Aware Design and Training to Enhance DNNs Reliability with
Zero-Overhead [67.87678914831477]
ディープニューラルネットワーク(DNN)は、幅広い技術的進歩を可能にする。
最近の知見は、過渡的なハードウェア欠陥がモデル予測を劇的に損なう可能性があることを示唆している。
本研究では,トレーニングとモデル設計の両面で信頼性の問題に取り組むことを提案する。
論文 参考訳(メタデータ) (2022-05-28T13:09:30Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。