論文の概要: On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused?
- arxiv url: http://arxiv.org/abs/2310.01581v1
- Date: Mon, 2 Oct 2023 19:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 19:07:26.135968
- Title: On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused?
- Title(参考訳): オープンソースの大規模言語モデルの安全性について:アライメントは本当に誤用を防ぐのか?
- Authors: Hangfan Zhang, Zhimeng Guo, Huaisheng Zhu, Bochuan Cao, Lu Lin,
Jinyuan Jia, Jinghui Chen, Dinghao Wu
- Abstract要約: オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
- 参考スコア(独自算出の注目度): 49.99955642001019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved unprecedented performance in
Natural Language Generation (NLG) tasks. However, many existing studies have
shown that they could be misused to generate undesired content. In response,
before releasing LLMs for public access, model developers usually align those
language models through Supervised Fine-Tuning (SFT) or Reinforcement Learning
with Human Feedback (RLHF). Consequently, those aligned large language models
refuse to generate undesired content when facing potentially harmful/unethical
requests. A natural question is "could alignment really prevent those
open-sourced large language models from being misused to generate undesired
content?''. In this work, we provide a negative answer to this question. In
particular, we show those open-sourced, aligned large language models could be
easily misguided to generate undesired content without heavy computations or
careful prompt designs. Our key idea is to directly manipulate the generation
process of open-sourced LLMs to misguide it to generate undesired content
including harmful or biased information and even private data. We evaluate our
method on 4 open-sourced LLMs accessible publicly and our finding highlights
the need for more advanced mitigation strategies for open-sourced LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語生成(NLG)タスクにおいて前例のない性能を達成した。
しかし、既存の多くの研究では、望ましくないコンテンツを生成するために誤用されることが示されている。
これに対して、LLMをパブリックアクセス向けにリリースする前に、モデル開発者は通常、Supervised Fine-Tuning (SFT)またはReinforcement Learning with Human Feedback (RLHF)を通じてこれらの言語モデルを調整する。
そのため、これら大手言語モデルは、潜在的に有害な/不適切な要求に直面した場合に、望ましくないコンテンツを生成することを拒否する。
自然な疑問は、"これらのオープンソースの大きな言語モデルは、望ましくないコンテンツを生成するために誤用されることを本当に防げるのか?
本研究では,この問題に対する否定的な回答を提供する。
特に,これらオープンソースでアライメントされた大規模言語モデルは,重い計算や注意深い設計をすることなく,望ましくないコンテンツを生成するために容易に誤解される可能性がある。
私たちの重要なアイデアは、オープンソースllmの生成プロセスを直接操作して、有害あるいは偏った情報やプライベートデータを含む望ましくないコンテンツを生成します。
提案手法は4つのオープンソース LLM 上で公開されており,より高度な LLM 対策の必要性が指摘されている。
関連論文リスト
- Can adversarial attacks by large language models be attributed? [1.3812010983144802]
敵の設定における大規模言語モデルからのアウトプットの寄与は、重要度が増大する可能性が高い重要な課題を示す。
正規言語理論,特にゴールドが導入しアングルインが拡張した限界における言語識別を用いて,この帰属問題について検討する。
以上の結果から,特定の言語クラスの識別不可能性から,特定のLLMに出力を確実に属性付けることは理論的には不可能であることが示唆された。
論文 参考訳(メタデータ) (2024-11-12T18:28:57Z) - Leveraging Open-Source Large Language Models for Native Language Identification [1.6267479602370543]
ネイティブ言語識別(NLI)は、法医学、マーケティング、第二言語習得に応用されている。
本研究では,オープンソース生成型大規模言語モデル(LLM)をNLIに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-09-15T08:14:18Z) - Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models [59.970391602080205]
本研究では,ジェネレーション空間の制約が推論やドメイン知識の理解など,LLMの能力に影響を及ぼすかどうかを検討する。
各種共通タスクにおける自由形式の応答を生成するよりも,構造化形式に順応することが制限された場合のLLMの性能を評価する。
より厳密なフォーマット制約は、一般的に推論タスクのパフォーマンス低下につながる。
論文 参考訳(メタデータ) (2024-08-05T13:08:24Z) - Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。
セーフかつレスポンシブルな大規模言語モデル (textbfSR$_textLLM$) を導入する。
textbfSR$_textLLM$は知識の整合性を維持しながらバイアスを効果的に低減する。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - Soft Prompt Threats: Attacking Safety Alignment and Unlearning in
Open-Source LLMs through the Embedding Space [19.426618259383126]
本稿では,入力トークンの連続的な埋め込み表現を直接攻撃する埋め込み空間攻撃を提案する。
組込み空間攻撃はモデルアライメントを回避し、離散攻撃やモデル微調整よりも有害な行動を効果的に引き起こすことを示す。
本研究は,スペースアタックをオープンソース LLM の重要な脅威モデルとして捉えたものである。
論文 参考訳(メタデータ) (2024-02-14T10:20:03Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。