論文の概要: Constitutional AI: Harmlessness from AI Feedback
- arxiv url: http://arxiv.org/abs/2212.08073v1
- Date: Thu, 15 Dec 2022 06:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 14:18:57.858235
- Title: Constitutional AI: Harmlessness from AI Feedback
- Title(参考訳): 憲法上のAI:AIのフィードバックから無害
- Authors: Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson
Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron
McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez,
Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie
Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile
Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer,
Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott
Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham,
Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R.
Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam
McCandlish, Tom Brown, Jared Kaplan
- Abstract要約: 我々は、自己改善を通じて無害なAIアシスタントを訓練する手法を実験した。
人間の監視はルールや原則の一覧を通じてのみ提供される。
私たちは、有害なクエリに対処する、無害だが回避できないAIアシスタントをトレーニングすることができる。
- 参考スコア(独自算出の注目度): 19.964791766072132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems become more capable, we would like to enlist their help to
supervise other AIs. We experiment with methods for training a harmless AI
assistant through self-improvement, without any human labels identifying
harmful outputs. The only human oversight is provided through a list of rules
or principles, and so we refer to the method as 'Constitutional AI'. The
process involves both a supervised learning and a reinforcement learning phase.
In the supervised phase we sample from an initial model, then generate
self-critiques and revisions, and then finetune the original model on revised
responses. In the RL phase, we sample from the finetuned model, use a model to
evaluate which of the two samples is better, and then train a preference model
from this dataset of AI preferences. We then train with RL using the preference
model as the reward signal, i.e. we use 'RL from AI Feedback' (RLAIF). As a
result we are able to train a harmless but non-evasive AI assistant that
engages with harmful queries by explaining its objections to them. Both the SL
and RL methods can leverage chain-of-thought style reasoning to improve the
human-judged performance and transparency of AI decision making. These methods
make it possible to control AI behavior more precisely and with far fewer human
labels.
- Abstract(参考訳): AIシステムがより有能になるにつれて、他のAIを監督するために彼らの助けを募りたいと思っています。
我々は、有害な出力を識別する人間ラベルなしで、自己改善を通じて有害なAIアシスタントを訓練する方法を実験した。
人間の監視はルールや原則のリストを通じてのみ提供されるので、この手法を「構成AI」と呼ぶ。
このプロセスは教師付き学習と強化学習フェーズの両方を含む。
教師付きフェーズでは、初期モデルからサンプルを取得し、自己批判と修正を生成し、修正されたレスポンスに基づいて元のモデルを微調整します。
RLフェーズでは、微調整モデルからサンプルを採取し、2つのサンプルのうちどれが優れているかを評価するモデルを用いて、このAI好みのデータセットから選好モデルをトレーニングする。
次に、リコメンデーションモデルを用いてRLでトレーニングする。つまり、AIフィードバックからのRL(RLAIF)を使用する。
その結果、有害なクエリに関わる、無害だが回避できないAIアシスタントをトレーニングできるようになりました。
SLとRLのどちらの手法も、チェーン・オブ・シンクスタイルの推論を利用して、AI意思決定の人道的なパフォーマンスと透明性を向上させることができる。
これらの手法により、AIの振る舞いをより正確に制御し、人間ラベルをはるかに少なくすることができる。
関連論文リスト
- Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - The Role of Heuristics and Biases During Complex Choices with an AI
Teammate [0.0]
古典的な実験手法は、AIヘルパーによる複雑な選択を研究するには不十分である、と我々は主張する。
我々は、フレーミングとアンカー効果が、人々がAIヘルパーと一緒に働く方法に影響を与え、選択結果を予測することを示した。
論文 参考訳(メタデータ) (2023-01-14T20:06:43Z) - Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs
for Centaurs [22.52332536886295]
本稿では,人間とAIの相互作用を逐次ゲームとして新たに定式化する。
このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。
我々は、機械が自身の限界と人間の助けを借りて改善する方法について議論する。
論文 参考訳(メタデータ) (2022-04-03T21:00:51Z) - Uncalibrated Models Can Improve Human-AI Collaboration [10.106324182884068]
私たちは、AIモデルを実際によりも自信を持って提示することで、人間-AIのパフォーマンスが向上することを示した。
私たちはまず、何千もの人間のインタラクションのデータを使って、人間がAIアドバイスを組み込む方法のモデルを学びます。
論文 参考訳(メタデータ) (2022-02-12T04:51:00Z) - Instructive artificial intelligence (AI) for human training, assistance,
and explainability [0.24629531282150877]
ニューラルネットワークが従来のAI(XAI)の代替手段として人間の研修生にどのように教えるかを示す。
AIは人間の行動を調べ、より良いパフォーマンスをもたらす人間の戦略のバリエーションを計算する。
結果は、ハナビにおける人間の意思決定と人間-AIチームを改善するAIインストラクションの能力について提示される。
論文 参考訳(メタデータ) (2021-11-02T16:46:46Z) - Humans learn too: Better Human-AI Interaction using Optimized Human
Inputs [2.5991265608180396]
人間はますますAIコンポーネントを持つシステムに依存している。
AIコミュニティは通常、人間の入力を与えられたものとして扱い、AIモデルのみを最適化する。
この作業では、モデルの修正を維持しながら、AIモデルとのより優れたインタラクションのために、人間の入力が最適化される。
論文 参考訳(メタデータ) (2020-09-19T16:30:37Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。