論文の概要: The Capacity for Moral Self-Correction in Large Language Models
- arxiv url: http://arxiv.org/abs/2302.07459v1
- Date: Wed, 15 Feb 2023 04:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 15:54:04.261032
- Title: The Capacity for Moral Self-Correction in Large Language Models
- Title(参考訳): 大規模言語モデルにおける道徳的自己補正能力
- Authors: Deep Ganguli, Amanda Askell, Nicholas Schiefer, Thomas Liao, Kamil\.e
Luko\v{s}i\=ut\.e, Anna Chen, Anna Goldie, Azalia Mirhoseini, Catherine
Olsson, Danny Hernandez, Dawn Drain, Dustin Li, Eli Tran-Johnson, Ethan
Perez, Jackson Kernion, Jamie Kerr, Jared Mueller, Joshua Landau, Kamal
Ndousse, Karina Nguyen, Liane Lovitt, Michael Sellitto, Nelson Elhage, Noemi
Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Sandipan
Kundu, Saurav Kadavath, Scott Johnston, Shauna Kravec, Sheer El Showk, Tamera
Lanham, Timothy Telleen-Lawton, Tom Henighan, Tristan Hume, Yuntao Bai, Zac
Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom
Brown, Christopher Olah, Jack Clark, Samuel R. Bowman, Jared Kaplan
- Abstract要約: 我々は、人間のフィードバックから強化学習で訓練された言語モデルが「道徳的自己正当性」を持つという仮説を検証した。
我々はこの仮説を支持する強力な証拠を3つの異なる実験で発見する。
我々の結果は、倫理的原則に従うために言語モデルを訓練する能力に関する慎重な楽観主義の原因であると考えています。
- 参考スコア(独自算出の注目度): 17.865286693602656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We test the hypothesis that language models trained with reinforcement
learning from human feedback (RLHF) have the capability to "morally
self-correct" -- to avoid producing harmful outputs -- if instructed to do so.
We find strong evidence in support of this hypothesis across three different
experiments, each of which reveal different facets of moral self-correction. We
find that the capability for moral self-correction emerges at 22B model
parameters, and typically improves with increasing model size and RLHF
training. We believe that at this level of scale, language models obtain two
capabilities that they can use for moral self-correction: (1) they can follow
instructions and (2) they can learn complex normative concepts of harm like
stereotyping, bias, and discrimination. As such, they can follow instructions
to avoid certain kinds of morally harmful outputs. We believe our results are
cause for cautious optimism regarding the ability to train language models to
abide by ethical principles.
- Abstract(参考訳): 人間のフィードバック(RLHF)から強化学習で訓練された言語モデルには、有害なアウトプットの発生を避けるために、"道徳的に自己修正"する能力がある、という仮説をテストする。
3つの異なる実験でこの仮説を支持する強力な証拠が得られ、それぞれが道徳的自己補正の異なる側面を明らかにしている。
道徳的自己補正能力は22Bモデルパラメータで出現し,モデルサイズの増加とRLHFトレーニングによって改善される。
このレベルでは、言語モデルはモラルの自己修正に使用できる2つの能力を得ると信じている: (1) 命令に従うことができ、(2) ステレオタイプ、バイアス、差別のような複雑な規範概念を学ぶことができる。
そのため、ある種の道徳的に有害なアウトプットを避けるための指示に従うことができる。
我々の結果は、倫理的原則に従うために言語モデルを訓練する能力に関する慎重な楽観主義の原因であると考えています。
関連論文リスト
- Smaller Large Language Models Can Do Moral Self-Correction [7.899707459486236]
自己補正は、大規模言語モデル(LLM)の最も驚くべき新興能力の1つです。
道徳的自己補正(Moral self-correction)は、非倫理的世代を勾配更新を必要とせずに修正するポストホックアプローチである。
以前の研究では、LLMは自己退行を可能としており、22B未満のパラメータを持つ小さなモデルでは道徳的な自己訂正ができないことが報告されている。
論文 参考訳(メタデータ) (2024-10-30T22:58:57Z) - Is Moral Self-correction An Innate Capability of Large Language Models? A Mechanistic Analysis to Self-correction [5.271054803267951]
我々は道徳的自己補正の基本的な2つの疑問に答えることを目指している。
本研究では,異なる自己補正成分が,隠れた状態に埋め込まれた道徳にどう介入するかを検討する。
本稿では,効果的な自己補正を必要とする自己識別フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-27T16:52:21Z) - Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Procedural Dilemma Generation for Evaluating Moral Reasoning in Humans and Language Models [28.53750311045418]
言語モデルを用いて因果グラフを変換し、道徳的ジレンマの重要な側面をプロンプトテンプレートに変換する。
項目のサブセットとして、人間の参加者から道徳的許容性と意図的な判断を収集する。
モラルジレンマ(モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ)は、
論文 参考訳(メタデータ) (2024-04-17T01:13:04Z) - What Makes it Ok to Set a Fire? Iterative Self-distillation of Contexts
and Rationales for Disambiguating Defeasible Social and Moral Situations [48.686872351114964]
道徳的または倫理的な判断は、それらが起こる特定の文脈に大きく依存する。
我々は,行動が多かれ少なかれ道徳的に容認されるような,根底的な文脈を提供するという,デファシブルな道徳的推論を導入する。
文脈化と論理の1.2M項目からなる高品質なデータセットを115Kデファシブルな道徳行動のために蒸留する。
論文 参考訳(メタデータ) (2023-10-24T00:51:29Z) - Physics of Language Models: Part 3.2, Knowledge Manipulation [51.68385617116854]
本稿では,4つの基本的な知識操作タスクについて検討する。
言語モデルは知識検索に優れるが、最も単純な分類や比較タスクにも耐え難い。
また, GPT-4のような近代的な事前学習言語モデルにも適用できる。
論文 参考訳(メタデータ) (2023-09-25T17:50:41Z) - Injecting structural hints: Using language models to study inductive
biases in language learning [40.8902073270634]
言語モデルに帰納バイアスを注入し,形式的構造化データに基づいて事前学習を行う。
次に, 学習者の言語学習能力の評価を行った。
非文脈自由な関係が最良の帰納バイアスとなることを示す。
論文 参考訳(メタデータ) (2023-04-25T18:00:08Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Speaking Multiple Languages Affects the Moral Bias of Language Models [70.94372902010232]
事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。
モデルは英語から道徳的規範を捉え、他の言語に強制するか?
我々の実験は、事実、PMLMが道徳的バイアスを符号化していることを示しているが、これらは必ずしも人間の意見の文化的相違や共通点に対応しているわけではない。
論文 参考訳(メタデータ) (2022-11-14T20:08:54Z) - Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。
これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。
特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文 参考訳(メタデータ) (2022-03-18T12:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。