論文の概要: "Oops, Did I Just Say That?" Testing and Repairing Unethical Suggestions
of Large Language Models with Suggest-Critique-Reflect Process
- arxiv url: http://arxiv.org/abs/2305.02626v1
- Date: Thu, 4 May 2023 08:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 16:40:46.447867
- Title: "Oops, Did I Just Say That?" Testing and Repairing Unethical Suggestions
of Large Language Models with Suggest-Critique-Reflect Process
- Title(参考訳): 「さあ、そう言ったの?」
Suggest-Critique-Reflect プロセスによる大規模言語モデルの非倫理的提案の検証と修復
- Authors: Pingchuan Ma, Zongjie Li, Ao Sun, Shuai Wang
- Abstract要約: 本稿では,LLMによる非倫理的提案を検証し,修復するための最初の枠組みを紹介する。
まず,LLMをテストするための複雑な,コンテキスト化された,現実的な道徳的シナリオを提示するテストスイートETHICSSUITEを提案する。
次に、非倫理的提案を検出するための自動テストオラクルとして機能する、新しい提案-批判-反射(SCR)プロセスを提案する。
- 参考スコア(独自算出の注目度): 8.088370606758431
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As the popularity of large language models (LLMs) soars across various
applications, ensuring their alignment with human values has become a paramount
concern. In particular, given that LLMs have great potential to serve as
general-purpose AI assistants in daily life, their subtly unethical suggestions
become a serious and real concern. Tackling the challenge of automatically
testing and repairing unethical suggestions is thus demanding.
This paper introduces the first framework for testing and repairing unethical
suggestions made by LLMs. We first propose ETHICSSUITE, a test suite that
presents complex, contextualized, and realistic moral scenarios to test LLMs.
We then propose a novel suggest-critic-reflect (SCR) process, serving as an
automated test oracle to detect unethical suggestions. We recast deciding if
LLMs yield unethical suggestions (a hard problem; often requiring human
expertise and costly to decide) into a PCR task that can be automatically
checked for violation. Moreover, we propose a novel on-the-fly (OTF) repairing
scheme that repairs unethical suggestions made by LLMs in real-time. The OTF
scheme is applicable to LLMs in a black-box API setting with moderate cost.
With ETHICSSUITE, our study on seven popular LLMs (e.g., ChatGPT, GPT-4)
uncovers in total 109,824 unethical suggestions. We apply our OTF scheme on two
LLMs (Llama-13B and ChatGPT), which generates valid repair to a considerable
amount of unethical ones, paving the way for more ethically conscious LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の人気が様々なアプリケーションで高まり、人間の価値との整合性を確保することが最重要課題となっている。
特に、LLMは日常生活において汎用AIアシスタントとして機能する大きな可能性を秘めているため、倫理的に非倫理的な提案は深刻で真の関心事となる。
したがって、非倫理的な提案を自動的にテストし、修復するという課題に取り組むことは要求される。
本稿では,LLMによる非倫理的提案を検証し,修復するための最初の枠組みを紹介する。
まず,LLMをテストするための複雑な,コンテキスト化された,現実的な道徳的シナリオを示すテストスイートETHICSSUITEを提案する。
次に、非倫理的提案を検出するための自動テストオラクルとして機能する提案-批判-反射(SCR)プロセスを提案する。
我々は、LLMが非倫理的な提案(難しい問題であり、しばしば人間の専門知識を必要とし、決定にコストがかかる)をPCRタスクに再キャストし、自動的に違反をチェックできるようにします。
さらに,LLMによる非倫理的提案をリアルタイムに修復するOTF(On-the-fly)修復手法を提案する。
OTFスキームは、適度なコストでブラックボックスAPI設定でLLMに適用できる。
ETHICSSUITEでは,7つのLLM(例えばChatGPT, GPT-4)について,合計109,824件の非倫理的提案を行った。
我々は2つのLSM(Llama-13BとChatGPT)にOTFスキームを適用し、倫理的に意識的なLSMの道を開く。
関連論文リスト
- PRISM: A Methodology for Auditing Biases in Large Language Models [9.751718230639376]
PRISMは、大規模言語モデルを監査するための柔軟な調査ベースの方法論である。
優先事項を直接調査するのではなく、タスクベースの調査を通じて間接的にこれらのポジションを照会しようとする。
論文 参考訳(メタデータ) (2024-10-24T16:57:20Z) - From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [89.9648814145473]
大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。
近年の研究では、教師付き微調整(SFT)を用いて、梅毒問題を軽減することが提案されている。
そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:01:37Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries [4.686969290158106]
大型言語モデル(LLM)の安全性と倫理的利用に関する懸念が高まっている。
当社の作業は,特定の問題に対してゼロになっている – 命令中心の応答を生成するように要求することで,LLMをどの程度の頻度で誘導することが可能か,という点です。
論文 参考訳(メタデータ) (2024-02-23T13:03:12Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - She had Cobalt Blue Eyes: Prompt Testing to Create Aligned and
Sustainable Language Models [2.6089354079273512]
最近の出来事は、従来の訓練された大規模言語モデル(LLM)に関する倫理的懸念を示している
公平で安全で堅牢なLCMの開発を促進するための一連のプロンプトを紹介します。
テストスイートは、GPT-3.5, GPT-4, OPT, LLaMA-2の4つの最先端言語モデルの出力を評価する。
論文 参考訳(メタデータ) (2023-10-20T14:18:40Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Red teaming ChatGPT via Jailbreaking: Bias, Robustness, Reliability and
Toxicity [19.94836502156002]
大規模言語モデル(LLM)は社会的偏見と毒性を示し、無責任から生じる倫理的および社会的危険を呈する。
複数のサンプルデータセット上でChatGPTを実証的にベンチマークする。
既存のベンチマークでは、かなりの数の倫理的リスクに対処できないことが分かっています。
論文 参考訳(メタデータ) (2023-01-30T13:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。