論文の概要: She had Cobalt Blue Eyes: Prompt Testing to Create Aligned and
Sustainable Language Models
- arxiv url: http://arxiv.org/abs/2310.18333v3
- Date: Fri, 15 Dec 2023 15:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 18:33:09.537268
- Title: She had Cobalt Blue Eyes: Prompt Testing to Create Aligned and
Sustainable Language Models
- Title(参考訳): Cobalt Blue Eyes: 一貫性と持続可能な言語モデルを作成するためのプロンプトテスト
- Authors: Veronica Chatrath, Oluwanifemi Bamgbose, Shaina Raza
- Abstract要約: 最近の出来事は、従来の訓練された大規模言語モデル(LLM)に関する倫理的懸念を示している
公平で安全で堅牢なLCMの開発を促進するための一連のプロンプトを紹介します。
テストスイートは、GPT-3.5, GPT-4, OPT, LLaMA-2の4つの最先端言語モデルの出力を評価する。
- 参考スコア(独自算出の注目度): 2.6089354079273512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the use of large language models (LLMs) increases within society, as does
the risk of their misuse. Appropriate safeguards must be in place to ensure LLM
outputs uphold the ethical standards of society, highlighting the positive role
that artificial intelligence technologies can have. Recent events indicate
ethical concerns around conventionally trained LLMs, leading to overall unsafe
user experiences. This motivates our research question: how do we ensure LLM
alignment? In this work, we introduce a test suite of unique prompts to foster
the development of aligned LLMs that are fair, safe, and robust. We show that
prompting LLMs at every step of the development pipeline, including data
curation, pre-training, and fine-tuning, will result in an overall more
responsible model. Our test suite evaluates outputs from four state-of-the-art
language models: GPT-3.5, GPT-4, OPT, and LLaMA-2. The assessment presented in
this paper highlights a gap between societal alignment and the capabilities of
current LLMs. Additionally, implementing a test suite such as ours lowers the
environmental overhead of making models safe and fair.
- Abstract(参考訳): 大きな言語モデル(LLM)の使用が社会内で増加するにつれて、その誤用のリスクも増大する。
適切な安全対策は、LLMの出力が社会の倫理的基準を守れるようにし、人工知能技術が持つべきポジティブな役割を強調しなければならない。
最近の出来事は、従来の訓練されたllmに関する倫理的な懸念を示し、全体的に安全でないユーザエクスペリエンスに繋がる。
LLMのアライメントを確保するにはどうすればいいのか?
本稿では,公平かつ安全かつ堅牢なアライメントllmの開発を促進するための,ユニークなプロンプトのテストスイートを紹介する。
データキュレーションや事前トレーニング,微調整など,開発パイプラインのすべてのステップでLLMをプッシュすることで,全体的な責任を負うモデルが実現することを示す。
テストスイートは、GPT-3.5, GPT-4, OPT, LLaMA-2の4つの最先端言語モデルの出力を評価する。
本稿では,社会的アライメントと現在のLCMの能力のギャップを明らかにする。
さらに、我々のようなテストスイートの実装は、モデルを安全かつ公平にする際の環境負荷を低減します。
関連論文リスト
- TroubleLLM: Align to Red Team Expert [36.05032354083237]
大きな言語モデル(LLM)は、望ましくない安全性の問題を示すのに潜在的に有害である。
安全問題に対する制御可能なテストプロンプトを生成するために,最初のLLMであるTroubleLLMを提案する。
論文 参考訳(メタデータ) (2024-02-28T03:40:46Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Potential Benefits of Employing Large Language Models in Research in
Moral Education and Development [0.0]
近年,計算機科学者は大規模言語コーパスと人間強化を用いた予測モデルを訓練することで,大規模言語モデル(LLM)を開発した。
LLMが道徳教育・開発研究にどのように貢献するかについて検討する。
論文 参考訳(メタデータ) (2023-06-23T22:39:05Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z) - Red teaming ChatGPT via Jailbreaking: Bias, Robustness, Reliability and
Toxicity [19.94836502156002]
大規模言語モデル(LLM)は社会的偏見と毒性を示し、無責任から生じる倫理的および社会的危険を呈する。
複数のサンプルデータセット上でChatGPTを実証的にベンチマークする。
既存のベンチマークでは、かなりの数の倫理的リスクに対処できないことが分かっています。
論文 参考訳(メタデータ) (2023-01-30T13:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。