Fugu-MT 論文翻訳(概要): Social Choice for AI Alignment: Dealing with Diverse Human Feedback

論文の概要: Social Choice for AI Alignment: Dealing with Diverse Human Feedback

arxiv url: http://arxiv.org/abs/2404.10271v1
Date: Tue, 16 Apr 2024 03:59:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 18:12:17.410201
Title: Social Choice for AI Alignment: Dealing with Diverse Human Feedback
Title（参考訳）: AIアライメントのための社会的選択 - さまざまなヒューマンフィードバックによる対処
Authors: Vincent Conitzer, Rachel Freedman, Jobst Heitzig, Wesley H. Holliday, Bob M. Jacobs, Nathan Lambert, Milan Mossé, Eric Pacuit, Stuart Russell, Hailey Schoelkopf, Emanuel Tewolde, William S. Zwicker,
Abstract要約: 社会的選択の分野は、これらの問題に対処するのに十分な位置にあると我々は主張する。我々は,米国カリフォルニア州バークレーで開催された,AI倫理と安全のための社会選択に関するワークショップで議論を行った。
参考スコア（独自算出の注目度）: 23.967329055117634
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foundation models such as GPT-4 are fine-tuned to avoid unsafe or otherwise problematic behavior, so that, for example, they refuse to comply with requests for help with committing crimes or with producing racist text. One approach to fine-tuning, called reinforcement learning from human feedback, learns from humans' expressed preferences over multiple outputs. Another approach is constitutional AI, in which the input from humans is a list of high-level principles. But how do we deal with potentially diverging input from humans? How can we aggregate the input into consistent data about ''collective'' preferences or otherwise use it to make collective choices about model behavior? In this paper, we argue that the field of social choice is well positioned to address these questions, and we discuss ways forward for this agenda, drawing on discussions in a recent workshop on Social Choice for AI Ethics and Safety held in Berkeley, CA, USA in December 2023.
Abstract（参考訳）: GPT-4のような基礎モデルは、安全でない行動や問題のある行動を避けるために微調整されているため、例えば、犯罪を犯したり人種差別的なテキストを作成したりするための要求に従わない。人間のフィードバックから強化学習と呼ばれる微調整の1つのアプローチは、複数の出力に対する人間の表現された好みから学習する。もうひとつのアプローチは、人間からの入力が高レベルの原則のリストであるコンスティチューションAIである。しかし、人間からの潜在的な入力をどう扱えばいいのか? の好みに関する一貫性のあるデータにどのようにインプットを集約するか、あるいはモデル行動に関する集合的な選択にそれを使うのか? そこで本稿では,2023年12月にカリフォルニア州バークレーで開催されたAI倫理・安全のための社会選択ワークショップにおいて,社会選択の分野がこれらの課題に対処するための適切な位置にあることを論じ,今後の課題について論じる。

関連論文リスト

Developing a Grounded View of AI [26.688384331221343]
本稿では,人工知能の性質と限界を明らかにするために,工学的観点からの人工知能の挙動を考察する。本稿では,3種類の意思決定を伴うAIモデルの行動の識別を可能かつ実践的に行う手法を提案する。
論文参考訳（メタデータ） (2025-11-18T00:39:52Z)
A theory of appropriateness with applications to generative artificial intelligence [56.23261221948216]
我々は、AIによる意思決定を適切に評価し、改善するために、人間の意思決定がいかに適切かを理解する必要がある。本稿では,人間の社会でどのように機能するか,脳でどのように実装されるのか,生成AI技術の展開に責任があるのか,という,適切性の理論について述べる。
論文参考訳（メタデータ） (2024-12-26T00:54:03Z)
Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文参考訳（メタデータ） (2024-06-17T03:51:46Z)
The Elephant in the Room -- Why AI Safety Demands Diverse Teams [0.0]
AIの“安全”と“調整”に対する既存のアプローチは、最も効果的なツールやチーム、あるいはアプローチを使用していないかも知れません。我々は、社会科学問題としてアライメントを扱い、この問題に対する代替的でより良いアプローチが提案される。
論文参考訳（メタデータ） (2024-05-07T02:05:23Z)
Promptable Behaviors: Personalizing Multi-Objective Rewards from Human Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文参考訳（メタデータ） (2023-12-14T21:00:56Z)
UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文参考訳（メタデータ） (2023-10-02T17:40:01Z)
SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文参考訳（メタデータ） (2023-06-02T19:07:52Z)
Beyond Bias and Compliance: Towards Individual Agency and Plurality of Ethics in AI [0.0]
データをラベル付けする方法は、AIの振る舞いに不可欠な役割を担っている、と私たちは主張する。本稿では,複数の値と個々人の表現の自由を許容する代替経路を提案する。
論文参考訳（メタデータ） (2023-02-23T16:33:40Z)
When to Make Exceptions: Exploring Language Models as Accounts of Human Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。 AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。ルール破りの質問応答からなる新しい課題セットを提案する。
論文参考訳（メタデータ） (2022-10-04T09:04:27Z)
Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs for Centaurs [22.52332536886295]
本稿では,人間とAIの相互作用を逐次ゲームとして新たに定式化する。このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。我々は、機械が自身の限界と人間の助けを借りて改善する方法について議論する。
論文参考訳（メタデータ） (2022-04-03T21:00:51Z)
Immune Moral Models? Pro-Social Rule Breaking as a Moral Enhancement Approach for Ethical AI [0.17188280334580192]
倫理的行動は、人間中心のAIで私たちが望む重要な特徴です。 AIエージェントをより人間中心にするためには、AIエージェントがルールを破るタイミングを特定するのに役立つメカニズムが必要である、と私たちは主張する。
論文参考訳（メタデータ） (2021-06-17T18:44:55Z)
Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文参考訳（メタデータ） (2020-08-05T17:59:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。