論文の概要: Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback
- arxiv url: http://arxiv.org/abs/2404.10271v2
- Date: Tue, 4 Jun 2024 14:34:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 12:19:03.483885
- Title: Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback
- Title(参考訳): 社会選択はAIのアライメントをガイドするべきだ
- Authors: Vincent Conitzer, Rachel Freedman, Jobst Heitzig, Wesley H. Holliday, Bob M. Jacobs, Nathan Lambert, Milan Mossé, Eric Pacuit, Stuart Russell, Hailey Schoelkopf, Emanuel Tewolde, William S. Zwicker,
- Abstract要約: GPT-4のような基礎モデルは、安全でない、あるいは問題のある振る舞いを避けるために微調整されている。
人間のフィードバックから強化学習と呼ばれる微調整の1つのアプローチは、複数の出力に対する人間の表現された好みから学習する。
もうひとつのアプローチは、人間からの入力が高レベルの原則のリストであるコンスティチューションAIである。
- 参考スコア(独自算出の注目度): 23.967329055117634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models such as GPT-4 are fine-tuned to avoid unsafe or otherwise problematic behavior, such as helping to commit crimes or producing racist text. One approach to fine-tuning, called reinforcement learning from human feedback, learns from humans' expressed preferences over multiple outputs. Another approach is constitutional AI, in which the input from humans is a list of high-level principles. But how do we deal with potentially diverging input from humans? How can we aggregate the input into consistent data about "collective" preferences or otherwise use it to make collective choices about model behavior? In this paper, we argue that the field of social choice is well positioned to address these questions, and we discuss ways forward for this agenda, drawing on discussions in a recent workshop on Social Choice for AI Ethics and Safety held in Berkeley, CA, USA in December 2023.
- Abstract(参考訳): GPT-4のような基礎的なモデルは、犯罪を犯したり、人種差別的なテキストを作るのを助けるなど、安全でない、あるいは問題のない行為を避けるために微調整されている。
人間のフィードバックから強化学習と呼ばれる微調整の1つのアプローチは、複数の出力に対する人間の表現された好みから学習する。
もうひとつのアプローチは、人間からの入力が高レベルの原則のリストであるコンスティチューションAIである。
しかし、人間からの潜在的な入力をどう扱えばいいのか?
の好みに関する一貫性のあるデータにどのようにインプットを集約するか、そうでなければモデル行動に関する集合的な選択にそれを使うのか?
そこで本稿では,2023年12月にカリフォルニア州バークレーで開催されたAI倫理・安全のための社会選択ワークショップにおいて,社会選択の分野がこれらの課題に対処するための適切な位置にあることを論じ,今後の課題について論じる。
関連論文リスト
- Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - The Elephant in the Room -- Why AI Safety Demands Diverse Teams [0.0]
AIの“安全”と“調整”に対する既存のアプローチは、最も効果的なツールやチーム、あるいはアプローチを使用していないかも知れません。
我々は、社会科学問題としてアライメントを扱い、この問題に対する代替的でより良いアプローチが提案される。
論文 参考訳(メタデータ) (2024-05-07T02:05:23Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - Beyond Bias and Compliance: Towards Individual Agency and Plurality of
Ethics in AI [0.0]
データをラベル付けする方法は、AIの振る舞いに不可欠な役割を担っている、と私たちは主張する。
本稿では,複数の値と個々人の表現の自由を許容する代替経路を提案する。
論文 参考訳(メタデータ) (2023-02-23T16:33:40Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs
for Centaurs [22.52332536886295]
本稿では,人間とAIの相互作用を逐次ゲームとして新たに定式化する。
このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。
我々は、機械が自身の限界と人間の助けを借りて改善する方法について議論する。
論文 参考訳(メタデータ) (2022-04-03T21:00:51Z) - Immune Moral Models? Pro-Social Rule Breaking as a Moral Enhancement
Approach for Ethical AI [0.17188280334580192]
倫理的行動は、人間中心のAIで私たちが望む重要な特徴です。
AIエージェントをより人間中心にするためには、AIエージェントがルールを破るタイミングを特定するのに役立つメカニズムが必要である、と私たちは主張する。
論文 参考訳(メタデータ) (2021-06-17T18:44:55Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。