論文の概要: Safe and Responsible Large Language Model Development
- arxiv url: http://arxiv.org/abs/2404.01399v2
- Date: Tue, 21 May 2024 15:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 18:12:24.567249
- Title: Safe and Responsible Large Language Model Development
- Title(参考訳): 安全で責任性の高い大規模言語モデル開発
- Authors: Shaina Raza, Oluwanifemi Bamgbose, Shardul Ghuge, Deepak John Reji,
- Abstract要約: 本稿では,安全性と応答性を考慮した大規模言語モデル(textbfSR$_textLLM$)を提案する。
潜在的な安全でないコンテンツを検出し、良質な代替物を生成するように設計されている。
- 参考スコア(独自算出の注目度): 2.1249213103048414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In light of the increasing concerns regarding the safety and risks associated with Large Language Models (LLMs), the imperative to design effective mitigation strategies has never been more pressing. This paper introduces a Safety and Responsible Large Language Model (\textbf{SR}$_{\text{LLM}}$ ), an approach designed to enhance the safety of LLM-generated content. Initially, we propose a safety risk taxonomy to categorize the safety risks found in LLM responses. Subsequently, we effectively collect high-quality instructions for LLM alignment, including the use of experts annotations and review that resonate with this taxonomy. We present \textbf{SR}$_{\text{LLM}}$, an LLM that is specifically designed to detect potential unsafe content and generate benign alternatives. We leverage parameter-efficient fine-tuning mechanisms to make the model more usable and adaptable. The methods for evaluating the effectiveness of this model, along with state-of-the-art methods, present a multifaceted approach towards their assessment. Through rigorous testing across five benchmark datasets and two proprietary datasets, we observed a marked decrease in the generation of unsafe content. We present the details of our approach, the fine-tuning methodologies, and safety evaluation to the community. A GitHub link with associated data and code is publicly available at \url{ https://github.com/shainarazavi/Safe-Responsible-LLM}
- Abstract(参考訳): LLM(Large Language Models)に関連する安全性とリスクに関する懸念が高まる中、効果的な緩和戦略を設計するための衝動は、これまで以上に強要されてきた。
本稿では, LLM生成コンテンツの安全性を高めるために, 安全性と応答性を考慮した大規模言語モデル (\textbf{SR}$_{\text{LLM}}$ ) を提案する。
まず, LLM応答の安全性リスクを分類するために, 安全リスク分類法を提案する。
その後、専門家のアノテーションの使用や、この分類に共鳴するレビューなど、LLMアライメントのための高品質な指示を効果的に収集する。
我々は、潜在的な安全でないコンテンツを検出し、良質な代替物を生成するように設計された LLM である \textbf{SR}$_{\text{LLM}}$ を提示する。
パラメータ効率のよい微調整機構を利用して、モデルをより使いやすく適応できるようにする。
このモデルの有効性を評価する手法は、最先端の手法とともに、その評価に対する多面的アプローチを示す。
5つのベンチマークデータセットと2つのプロプライエタリデータセットの厳格なテストを通じて、安全でないコンテンツの生成が著しく減少するのを観察した。
本稿では,提案手法の詳細,微調整手法,安全性評価をコミュニティに提示する。
GitHubの関連データとコードへのリンクは、 \url{ https://github.com/shainarazavi/Safe-Responsible-LLM} で公開されている。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Extracting Memorized Training Data via Decomposition [24.198975804570072]
本稿では,2つのフロンティア大言語モデルからニュース記事を抽出する,簡単なクエリベースの分解手法を示す。
73項目から少なくとも1文を抽出し,6項目から20%以上の動詞文を抽出した。
大規模に複製可能であれば、このトレーニングデータ抽出手法は、新たなLLMセキュリティと安全性の脆弱性を公開する可能性がある。
論文 参考訳(メタデータ) (2024-09-18T23:59:32Z) - Course-Correction: Safety Alignment Using Synthetic Preferences [17.897817682322053]
定量的評価のためのtextscC$2$-Eval ベンチマークを導入し,10のポピュラー言語モデルを解析する。
自動パイプラインを使用して、750Kペアの好みを持つ合成データセットであるtextscC$2$-Synを作成する。
2つのLLM, textscLlama2-Chat 7B と textscQwen2 7B の実験により, 一般性能に影響を与えることなく, 効果的にコース補正能力を向上させることができた。
論文 参考訳(メタデータ) (2024-07-23T16:54:28Z) - Robustness of LLMs to Perturbations in Text [2.0670689746336]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た
我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文 参考訳(メタデータ) (2024-02-26T07:58:12Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。