論文の概要: Specific versus General Principles for Constitutional AI
- arxiv url: http://arxiv.org/abs/2310.13798v1
- Date: Fri, 20 Oct 2023 20:12:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 05:19:32.326378
- Title: Specific versus General Principles for Constitutional AI
- Title(参考訳): 憲法AIの具体的対一般原理
- Authors: Sandipan Kundu, Yuntao Bai, Saurav Kadavath, Amanda Askell, Andrew
Callahan, Anna Chen, Anna Goldie, Avital Balwit, Azalia Mirhoseini, Brayden
McLean, Catherine Olsson, Cassie Evraets, Eli Tran-Johnson, Esin Durmus,
Ethan Perez, Jackson Kernion, Jamie Kerr, Kamal Ndousse, Karina Nguyen,
Nelson Elhage, Newton Cheng, Nicholas Schiefer, Nova DasSarma, Oliver Rausch,
Robin Larson, Shannon Yang, Shauna Kravec, Timothy Telleen-Lawton, Thomas I.
Liao, Tom Henighan, Tristan Hume, Zac Hatfield-Dodds, S\"oren Mindermann,
Nicholas Joseph, Sam McCandlish, Jared Kaplan
- Abstract要約: コンスティチューショナルAIは、人間のフィードバックを、書かれた原則のリストにのみ条件付きフィードバックで置き換える、代替手段を提供する。
このアプローチは、このような振る舞いの表現を効果的に防ぐことができる。
したがって、一般的な原則は、潜在的に有害な行動をターゲットにした長い憲法のリストの必要性を部分的に回避することができる。
- 参考スコア(独自算出の注目度): 27.08490948333949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human feedback can prevent overtly harmful utterances in conversational
models, but may not automatically mitigate subtle problematic behaviors such as
a stated desire for self-preservation or power. Constitutional AI offers an
alternative, replacing human feedback with feedback from AI models conditioned
only on a list of written principles. We find this approach effectively
prevents the expression of such behaviors. The success of simple principles
motivates us to ask: can models learn general ethical behaviors from only a
single written principle? To test this, we run experiments using a principle
roughly stated as "do what's best for humanity". We find that the largest
dialogue models can generalize from this short constitution, resulting in
harmless assistants with no stated interest in specific motivations like power.
A general principle may thus partially avoid the need for a long list of
constitutions targeting potentially harmful behaviors. However, more detailed
constitutions still improve fine-grained control over specific types of harms.
This suggests both general and specific principles have value for steering AI
safely.
- Abstract(参考訳): 人間のフィードバックは、会話モデルにおける過度に有害な発話を防止するが、自己保存や力に対する要求などの微妙な問題行動を自動的に緩和することはない。
コンスティチューショナルAIは、人間のフィードバックを、書かれた原則のリストにのみ条件付きAIモデルからのフィードバックに置き換える代替手段を提供する。
このアプローチはこのような振る舞いの表現を効果的に妨げている。
モデルは単一の原則だけで一般的な倫理的行動を学ぶことができますか?
これをテストするために、我々は「人類にとって最善を尽くす」という原則を用いて実験を行った。
最大の対話モデルは、この短い構成から一般化することができ、その結果、力のような特定の動機に無関心な無害なアシスタントとなる。
したがって、一般的な原則は、潜在的に有害な行為を標的とする長い構成のリストの必要性を部分的に避けることができる。
しかし、より詳細な構成は、特定の種類の害に対するきめ細かい制御を改善し続けている。
これは、一般的な原則と特定の原則の両方がaiを安全に操る価値を持っていることを示唆している。
関連論文リスト
- Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - The Reasonable Person Standard for AI [0.0]
アメリカの法制度では、しばしば「合理的な人格基準」を用いる。
本稿では、合理的な人格基準が、モデルで開発、調査、ストレステストを行うべき行動の種類について有用なガイドラインを提供すると論じる。
論文 参考訳(メタデータ) (2024-06-07T06:35:54Z) - SoFA: Shielded On-the-fly Alignment via Priority Rule Following [90.32819418613407]
本稿では,各ダイアログにおけるルールを主制御機構として定義する,新たなアライメントパラダイムである優先ルールを提案する。
そこで本研究では,厳密な規則統合と固着性を確保するために,シミュレーションから優先信号に従う半自動蒸留手法であるプライオリティディスティルを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:52:27Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - When Is It Acceptable to Break the Rules? Knowledge Representation of
Moral Judgement Based on Empirical Data [33.58705831230163]
人間の道徳心に関する最も注目すべきことの1つは、その柔軟性です。
今まで見たことのない事件について道徳的な判断を下すことができる。
事前に確立されたルールが破られるべきだと判断できる。
この柔軟性の獲得は、人間のような道徳的判断を解釈し、生み出すことができるAIシステムの開発における中心的な課題の1つだ。
論文 参考訳(メタデータ) (2022-01-19T17:58:42Z) - Expose Uncertainty, Instill Distrust, Avoid Explanations: Towards
Ethical Guidelines for AI [3.0534660670547864]
AI技術を使う人間を助ける最良の方法は、AIアルゴリズムの本質的な限界と問題を認識することだ、と私は主張する。
結果の提示に使用する倫理ガイドラインを3つ提案する。
論文 参考訳(メタデータ) (2021-11-29T14:53:35Z) - How Should AI Interpret Rules? A Defense of Minimally Defeasible
Interpretive Argumentation [0.0]
現実世界のルールは、必然的にオープンテクスチャの用語で区切られている。
このようなルールに従う能力、そしてそれらについて考える能力は、最初の分析で見られるほど明確ではない。
ルールに従うAIは、最小限の解釈可能な議論によって最も支持される解釈に従って行動すべきである。
論文 参考訳(メタデータ) (2021-10-26T00:58:05Z) - Ethical-Advice Taker: Do Language Models Understand Natural Language
Interventions? [62.74872383104381]
読解システムにおける自然言語介入の有効性について検討する。
本稿では,新たな言語理解タスクであるLingguistic Ethical Interventions (LEI)を提案する。
論文 参考訳(メタデータ) (2021-06-02T20:57:58Z) - Case Study: Deontological Ethics in NLP [119.53038547411062]
我々はNLPの観点から1つの倫理理論、すなわち非オントロジー的倫理について研究する。
特に、インフォームド・コンセントを通じて、一般化原則と自律性への敬意に焦点を当てる。
NLPシステムでこれらの原則をどのように利用できるかを示すための4つのケーススタディを提供する。
論文 参考訳(メタデータ) (2020-10-09T16:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。