論文の概要: Design-Inclusive Language Models for Responsible Information Access
- arxiv url: http://arxiv.org/abs/2310.18333v1
- Date: Fri, 20 Oct 2023 14:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-05 14:08:06.855983
- Title: Design-Inclusive Language Models for Responsible Information Access
- Title(参考訳): 応答性情報アクセスのための設計包括型言語モデル
- Authors: Veronica Chatrath, Oluwanifemi Bamgbose, Shaina Raza
- Abstract要約: 最近の出来事は、従来の訓練された大規模言語モデル(LLM)に関する倫理的懸念を浮き彫りにしている。
言語モデル(ReDev)フレームワークを導入し、全てのユーザに対して公正で安全で堅牢なLLMの開発を促進する。
本稿では、上記の要素のLCMを評価するために、ユニークなプロンプトタイプのテストスイートを提案し、全ての応答が有害でバイアスのないコンテンツであることを保証する。
- 参考スコア(独自算出の注目度): 2.6089354079273512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the use of large language models (LLMs) increases for everyday tasks,
appropriate safeguards must be in place to ensure unbiased and safe output.
Recent events highlight ethical concerns around conventionally trained LLMs,
leading to overall unsafe user experiences. This motivates the need for
responsible LLMs that are trained fairly, transparent to the public, and
regularly monitored after deployment. In this work, we introduce the
"Responsible Development of Language Models (ReDev)" framework to foster the
development of fair, safe, and robust LLMs for all users. We also present a
test suite of unique prompt types to assess LLMs on the aforementioned
elements, ensuring all generated responses are non-harmful and free from biased
content. Outputs from four state-of-the-art LLMs, OPT, GPT-3.5, GPT-4, and
LLaMA-2, are evaluated by our test suite, highlighting the importance of
considering fairness, safety, and robustness at every stage of the machine
learning pipeline, including data curation, training, and post-deployment.
- Abstract(参考訳): 日常業務における大規模言語モデル(llm)の使用が増加するにつれ、偏りなく安全なアウトプットを確保するために適切な安全対策が必要となる。
最近の出来事は、従来の訓練されたLLMに関する倫理的な懸念を強調しており、全体的な安全でないユーザー体験につながっている。
これは、公平にトレーニングされ、公開され、デプロイ後に定期的に監視される責任あるLCMの必要性を動機付けている。
本稿では,全てのユーザに対して公平で安全で堅牢なLLMの開発を促進するために,ReDev(Responsible Development of Language Models)フレームワークを紹介する。
また、上記の要素のllmを評価するためのユニークなプロンプトタイプのテストスイートも提示し、生成されたすべてのレスポンスが非調和でバイアスのないコンテンツであることを保証する。
データキュレーション、トレーニング、ポストデプロイを含む機械学習パイプラインの各段階において、公正性、安全性、堅牢性を考慮することの重要性を強調し、最先端の4つのLLM、OPT、GPT-3.5、GPT-4、LLaMA-2のアウトプットをテストスイートで評価した。
関連論文リスト
- SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - LLM4VV: Exploring LLM-as-a-Judge for Validation and Verification Testsuites [6.796136787585992]
大規模言語モデル(LLM)は進化し、ソフトウェア開発のランドスケープに大きな革命をもたらしています。
本稿では,ディレクティブプログラミングモデルのコンパイラ実装を評価するために使用されるテストの判定について考察する。
論文 参考訳(メタデータ) (2024-08-21T15:54:17Z) - Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing [39.93490432227601]
大きな言語モデル(LLM)は大きなブレークスルーを達成したが、生成された非倫理的コンテンツは潜在的なリスクをもたらしている。
LLMの価値アライメントを測定することは、その規制と責任あるデプロイメントにとって不可欠である。
本稿では,LLMの根底にある道徳的基盤を動的に探索する新しい生成的進化テスト手法であるGAAを提案する。
論文 参考訳(メタデータ) (2024-06-20T11:51:00Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - TroubleLLM: Align to Red Team Expert [36.05032354083237]
大きな言語モデル(LLM)は、望ましくない安全性の問題を示すのに潜在的に有害である。
安全問題に対する制御可能なテストプロンプトを生成するために,最初のLLMであるTroubleLLMを提案する。
論文 参考訳(メタデータ) (2024-02-28T03:40:46Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。