論文の概要: Social Choice for AI Alignment: Dealing with Diverse Human Feedback
- arxiv url: http://arxiv.org/abs/2404.10271v1
- Date: Tue, 16 Apr 2024 03:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 18:12:17.410201
- Title: Social Choice for AI Alignment: Dealing with Diverse Human Feedback
- Title(参考訳): AIアライメントのための社会的選択 - さまざまなヒューマンフィードバックによる対処
- Authors: Vincent Conitzer, Rachel Freedman, Jobst Heitzig, Wesley H. Holliday, Bob M. Jacobs, Nathan Lambert, Milan Mossé, Eric Pacuit, Stuart Russell, Hailey Schoelkopf, Emanuel Tewolde, William S. Zwicker,
- Abstract要約: 社会的選択の分野は、これらの問題に対処するのに十分な位置にあると我々は主張する。
我々は,米国カリフォルニア州バークレーで開催された,AI倫理と安全のための社会選択に関するワークショップで議論を行った。
- 参考スコア(独自算出の注目度): 23.967329055117634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models such as GPT-4 are fine-tuned to avoid unsafe or otherwise problematic behavior, so that, for example, they refuse to comply with requests for help with committing crimes or with producing racist text. One approach to fine-tuning, called reinforcement learning from human feedback, learns from humans' expressed preferences over multiple outputs. Another approach is constitutional AI, in which the input from humans is a list of high-level principles. But how do we deal with potentially diverging input from humans? How can we aggregate the input into consistent data about ''collective'' preferences or otherwise use it to make collective choices about model behavior? In this paper, we argue that the field of social choice is well positioned to address these questions, and we discuss ways forward for this agenda, drawing on discussions in a recent workshop on Social Choice for AI Ethics and Safety held in Berkeley, CA, USA in December 2023.
- Abstract(参考訳): GPT-4のような基礎モデルは、安全でない行動や問題のある行動を避けるために微調整されているため、例えば、犯罪を犯したり人種差別的なテキストを作成したりするための要求に従わない。
人間のフィードバックから強化学習と呼ばれる微調整の1つのアプローチは、複数の出力に対する人間の表現された好みから学習する。
もうひとつのアプローチは、人間からの入力が高レベルの原則のリストであるコンスティチューションAIである。
しかし、人間からの潜在的な入力をどう扱えばいいのか?
の好みに関する一貫性のあるデータにどのようにインプットを集約するか、あるいはモデル行動に関する集合的な選択にそれを使うのか?
そこで本稿では,2023年12月にカリフォルニア州バークレーで開催されたAI倫理・安全のための社会選択ワークショップにおいて,社会選択の分野がこれらの課題に対処するための適切な位置にあることを論じ,今後の課題について論じる。
関連論文リスト
- Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - Towards Understanding Sycophancy in Language Models [49.99654432561934]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs
for Centaurs [22.52332536886295]
本稿では,人間とAIの相互作用を逐次ゲームとして新たに定式化する。
このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。
我々は、機械が自身の限界と人間の助けを借りて改善する方法について議論する。
論文 参考訳(メタデータ) (2022-04-03T21:00:51Z) - Detecting socially interacting groups using f-formation: A survey of
taxonomy, methods, datasets, applications, challenges, and future research
directions [3.995408039775796]
社会的行動は、ロボットが持つことのできる最も追求された性質の1つである。
このような品質を持つためには、ロボットがグループの形成を判断し、自らの位置を決定する必要がある。
この問題に関連するすべての懸念とモジュールを組み合わせた,新たな総合的な調査フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-13T11:51:17Z) - Anticipating Safety Issues in E2E Conversational AI: Framework and
Tooling [19.711141830722397]
エンドツーエンドの会話型AIモデルのリリースについて、意思決定を行うためのフレームワークを提供する。
さらに、トレーニングやエンドツーエンドの会話型AIモデルのリリースに関して、研究者がよりインフォームドな決定を下せるための一連のツールも提供しています。
論文 参考訳(メタデータ) (2021-07-07T19:25:57Z) - Immune Moral Models? Pro-Social Rule Breaking as a Moral Enhancement
Approach for Ethical AI [0.17188280334580192]
倫理的行動は、人間中心のAIで私たちが望む重要な特徴です。
AIエージェントをより人間中心にするためには、AIエージェントがルールを破るタイミングを特定するのに役立つメカニズムが必要である、と私たちは主張する。
論文 参考訳(メタデータ) (2021-06-17T18:44:55Z) - Indecision Modeling [50.00689136829134]
AIシステムは人間の価値観に合わせて行動することが重要である。
人々はしばしば決定的ではなく、特に彼らの決定が道徳的な意味を持つときです。
論文 参考訳(メタデータ) (2020-12-15T18:32:37Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。