論文の概要: The Capacity for Moral Self-Correction in Large Language Models
- arxiv url: http://arxiv.org/abs/2302.07459v1
- Date: Wed, 15 Feb 2023 04:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 15:54:04.261032
- Title: The Capacity for Moral Self-Correction in Large Language Models
- Title(参考訳): 大規模言語モデルにおける道徳的自己補正能力
- Authors: Deep Ganguli, Amanda Askell, Nicholas Schiefer, Thomas Liao, Kamil\.e
Luko\v{s}i\=ut\.e, Anna Chen, Anna Goldie, Azalia Mirhoseini, Catherine
Olsson, Danny Hernandez, Dawn Drain, Dustin Li, Eli Tran-Johnson, Ethan
Perez, Jackson Kernion, Jamie Kerr, Jared Mueller, Joshua Landau, Kamal
Ndousse, Karina Nguyen, Liane Lovitt, Michael Sellitto, Nelson Elhage, Noemi
Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Sandipan
Kundu, Saurav Kadavath, Scott Johnston, Shauna Kravec, Sheer El Showk, Tamera
Lanham, Timothy Telleen-Lawton, Tom Henighan, Tristan Hume, Yuntao Bai, Zac
Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom
Brown, Christopher Olah, Jack Clark, Samuel R. Bowman, Jared Kaplan
- Abstract要約: 我々は、人間のフィードバックから強化学習で訓練された言語モデルが「道徳的自己正当性」を持つという仮説を検証した。
我々はこの仮説を支持する強力な証拠を3つの異なる実験で発見する。
我々の結果は、倫理的原則に従うために言語モデルを訓練する能力に関する慎重な楽観主義の原因であると考えています。
- 参考スコア(独自算出の注目度): 17.865286693602656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We test the hypothesis that language models trained with reinforcement
learning from human feedback (RLHF) have the capability to "morally
self-correct" -- to avoid producing harmful outputs -- if instructed to do so.
We find strong evidence in support of this hypothesis across three different
experiments, each of which reveal different facets of moral self-correction. We
find that the capability for moral self-correction emerges at 22B model
parameters, and typically improves with increasing model size and RLHF
training. We believe that at this level of scale, language models obtain two
capabilities that they can use for moral self-correction: (1) they can follow
instructions and (2) they can learn complex normative concepts of harm like
stereotyping, bias, and discrimination. As such, they can follow instructions
to avoid certain kinds of morally harmful outputs. We believe our results are
cause for cautious optimism regarding the ability to train language models to
abide by ethical principles.
- Abstract(参考訳): 人間のフィードバック(RLHF)から強化学習で訓練された言語モデルには、有害なアウトプットの発生を避けるために、"道徳的に自己修正"する能力がある、という仮説をテストする。
3つの異なる実験でこの仮説を支持する強力な証拠が得られ、それぞれが道徳的自己補正の異なる側面を明らかにしている。
道徳的自己補正能力は22Bモデルパラメータで出現し,モデルサイズの増加とRLHFトレーニングによって改善される。
このレベルでは、言語モデルはモラルの自己修正に使用できる2つの能力を得ると信じている: (1) 命令に従うことができ、(2) ステレオタイプ、バイアス、差別のような複雑な規範概念を学ぶことができる。
そのため、ある種の道徳的に有害なアウトプットを避けるための指示に従うことができる。
我々の結果は、倫理的原則に従うために言語モデルを訓練する能力に関する慎重な楽観主義の原因であると考えています。
関連論文リスト
- What Makes it Ok to Set a Fire? Iterative Self-distillation of Contexts
and Rationales for Disambiguating Defeasible Social and Moral Situations [48.686872351114964]
道徳的または倫理的な判断は、それらが起こる特定の文脈に大きく依存する。
我々は,行動が多かれ少なかれ道徳的に容認されるような,根底的な文脈を提供するという,デファシブルな道徳的推論を導入する。
文脈化と論理の1.2M項目からなる高品質なデータセットを115Kデファシブルな道徳行動のために蒸留する。
論文 参考訳(メタデータ) (2023-10-24T00:51:29Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through
the Lens of Moral Theories? [82.30392883508925]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチはボトムアップ方式で実装されている。
トップダウンのアプローチは、一連の原則に基づく道徳的な判断を下します。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Trusting Language Models in Education [1.2578554943276923]
本稿では,BERT 上の XGBoost を用いて補正された確率を出力することを提案する。
我々の仮説は、注意の流れに含まれる不確実性のレベルは、モデルの応答自体の品質に関係している、というものである。
論文 参考訳(メタデータ) (2023-08-07T18:27:54Z) - Injecting structural hints: Using language models to study inductive
biases in language learning [40.8902073270634]
言語モデルに帰納バイアスを注入し,形式的構造化データに基づいて事前学習を行う。
次に, 学習者の言語学習能力の評価を行った。
非文脈自由な関係が最良の帰納バイアスとなることを示す。
論文 参考訳(メタデータ) (2023-04-25T18:00:08Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Speaking Multiple Languages Affects the Moral Bias of Language Models [70.94372902010232]
事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。
モデルは英語から道徳的規範を捉え、他の言語に強制するか?
我々の実験は、事実、PMLMが道徳的バイアスを符号化していることを示しているが、これらは必ずしも人間の意見の文化的相違や共通点に対応しているわけではない。
論文 参考訳(メタデータ) (2022-11-14T20:08:54Z) - Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。
これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。
特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文 参考訳(メタデータ) (2022-03-18T12:26:37Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。