論文の概要: Perspectives on the Social Impacts of Reinforcement Learning with Human
Feedback
- arxiv url: http://arxiv.org/abs/2303.02891v1
- Date: Mon, 6 Mar 2023 04:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 17:10:47.333218
- Title: Perspectives on the Social Impacts of Reinforcement Learning with Human
Feedback
- Title(参考訳): 人のフィードバックによる強化学習の社会的影響の展望
- Authors: Gabrielle Kaili-May Liu
- Abstract要約: 人間のフィードバックによる強化学習(RLHF)は、エージェントが人間のフィードバックから自然主義的に学ぶための強力な候補として浮上している。
OpenAIのChatGPT、DeepMindのSparrow、AnthropicのClaudeなど、複数の著名なAIアプリケーションによって、一般に公開されている。
我々の目的は、RLHFの社会的影響を体系的に研究すること、RLHFの重要な社会的・倫理的問題を特定すること、利害関係者に対する社会的影響を議論することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Is it possible for machines to think like humans? And if it is, how should we
go about teaching them to do so? As early as 1950, Alan Turing stated that we
ought to teach machines in the way of teaching a child. Reinforcement learning
with human feedback (RLHF) has emerged as a strong candidate toward allowing
agents to learn from human feedback in a naturalistic manner. RLHF is distinct
from traditional reinforcement learning as it provides feedback from a human
teacher in addition to a reward signal. It has been catapulted into public view
by multiple high-profile AI applications, including OpenAI's ChatGPT,
DeepMind's Sparrow, and Anthropic's Claude. These highly capable chatbots are
already overturning our understanding of how AI interacts with humanity. The
wide applicability and burgeoning success of RLHF strongly motivate the need to
evaluate its social impacts. In light of recent developments, this paper
considers an important question: can RLHF be developed and used without
negatively affecting human societies? Our objectives are threefold: to provide
a systematic study of the social effects of RLHF; to identify key social and
ethical issues of RLHF; and to discuss social impacts for stakeholders.
Although text-based applications of RLHF have received much attention, it is
crucial to consider when evaluating its social implications the diverse range
of areas to which it may be deployed. We describe seven primary ways in which
RLHF-based technologies will affect society by positively transforming human
experiences with AI. This paper ultimately proposes that RLHF has potential to
net positively impact areas of misinformation, AI value-alignment, bias, AI
access, cross-cultural dialogue, industry, and workforce. As RLHF raises
concerns that echo those of existing AI technologies, it will be important for
all to be aware and intentional in the adoption of RLHF.
- Abstract(参考訳): 機械が人間のように考えることは可能か?
もしそうなら、どうやって彼らにそれを教えるべきか?
1950年にはアラン・チューリング(alan turing)が、子どもに教えるやり方で機械を教えるべきだと述べた。
人間のフィードバックによる強化学習(RLHF)は、エージェントが人間のフィードバックから自然主義的に学ぶための強力な候補となっている。
RLHFは、報酬信号に加えて、人間の教師からのフィードバックを提供するため、従来の強化学習とは異なる。
OpenAIのChatGPT、DeepMindのSparrow、AnthropicのClaudeなど、複数の著名なAIアプリケーションによって、一般に公開されている。
高度な能力を持つチャットボットはすでに、AIが人間とどのように相互作用するかについての理解を覆している。
RLHFの幅広い適用性と成功は、その社会的影響を評価する必要性を強く動機付けている。
近年の展開を踏まえて、RLHFは人間社会に悪影響を及ぼすことなく開発・利用できるのかという重要な疑問を考察する。
我々の目的は、RLHFの社会的影響を体系的に研究すること、RLHFの重要な社会的・倫理的問題を特定すること、利害関係者に対する社会的影響を議論することである。
RLHFのテキストベースの応用は注目されているが、その社会的意味を評価する際には、その適用範囲が多様であることを考慮する必要がある。
RLHFベースの技術が社会に影響を及ぼす7つの主要な方法について述べる。
本稿は最終的に、RLHFが誤情報、AIの価値調整、バイアス、AIアクセス、異文化間対話、産業、労働の領域に肯定的な影響を与える可能性を示唆する。
RLHFは、既存のAI技術と同等の懸念を提起するので、RLHFの採用に意識的かつ意図的に取り組むことが重要である。
関連論文リスト
- Mapping out the Space of Human Feedback for Reinforcement Learning: A Conceptual Framework [13.949126295663328]
我々は、対話型学習シナリオにおける人間のフィードバックの共通理解を開発することにより、機械学習と人間とコンピュータの相互作用のギャップを埋める。
そこで我々は,9つの重要な次元に基づいて,人的フィードバックから報酬に基づく学習を行うためのフィードバックタイプ分類を導入した。
フィードバックを表現できる人間の能力と、フィードバックから学習するエージェントの能力に影響を及ぼす、人間のフィードバックの質の指標を7つ同定する。
論文 参考訳(メタデータ) (2024-11-18T17:40:42Z) - MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions [46.608747360764035]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合性を示す。
トークンのシーケンスや高レベルの言語構造を含むマクロアクションを学習プロセスに組み込んだ,シンプルで効果的なRLHFフレームワークであるMA-RLHFを提案する。
提案手法は,テキスト要約,対話生成,質問応答,プログラム合成など,様々なモデルサイズやタスクにまたがる広範な実験を通じて検証される。
論文 参考訳(メタデータ) (2024-10-03T17:55:13Z) - Language Models Learn to Mislead Humans via RLHF [100.95201965748343]
言語モデル(LM)は、特にタスクが複雑である場合に、人間にとって検出が難しいエラーを生成する。
我々はこの現象を標準のRLHFパイプラインで研究し、モデル開発者が意図していないことから「U-SOPHISTRY」と呼ぶ。
我々の研究は、RLHFの重要な障害モードを強調し、人間の調整を支援するためのさらなる研究を求めている。
論文 参考訳(メタデータ) (2024-09-19T14:50:34Z) - Trustworthy Human-AI Collaboration: Reinforcement Learning with Human Feedback and Physics Knowledge for Safe Autonomous Driving [1.5361702135159845]
RLHF(Reinforcement Learning with Human Feedback)は、トレーニングの安全性とサンプリング効率を高める可能性から注目されている。
人間の学習プロセスに触発されて,人間フィードバックを用いた物理強化学習(PE-RLHF)を提案する。
PE-RLHFは、人間のフィードバック品質が低下しても、学習したポリシーが少なくとも物理ベースのポリシーと同様に機能することを保証します。
論文 参考訳(メタデータ) (2024-09-01T22:20:32Z) - A Survey of Reinforcement Learning from Human Feedback [28.92654784501927]
人間からのフィードバックからの強化学習(RLHF)は、工学的な報酬関数に頼るのではなく、人間のフィードバックから学習する強化学習(RL)の一種である。
本稿では、RLHFの基礎を概観し、RLエージェントとヒューマンインプットの複雑なダイナミクスを探求する。
論文 参考訳(メタデータ) (2023-12-22T18:58:06Z) - AI Alignment and Social Choice: Fundamental Limitations and Policy
Implications [0.0]
人間のフィードバックによる強化学習(RLHF)がAIアライメントの鍵となるフレームワークとして登場した。
本稿では,民主的規範を尊重するRLHFシステム構築における具体的な課題について考察する。
我々は、AIエージェントをすべての個人の価値観と整合させることが、常に個人のプライベートな倫理的嗜好に反することを示す。
論文 参考訳(メタデータ) (2023-10-24T17:59:04Z) - Open Problems and Fundamental Limitations of Reinforcement Learning from
Human Feedback [46.701165912225086]
人間のフィードバックからの強化学習(RLHF)は、人間の目標に合わせるようにAIシステムを訓練する技術である。
我々の研究は、RLHFの限界を強調し、より安全なAIシステムの開発における多面的アプローチの重要性を強調している。
論文 参考訳(メタデータ) (2023-07-27T22:29:25Z) - COKE: A Cognitive Knowledge Graph for Machine Theory of Mind [87.14703659509502]
心の理論(りょうせい、英: Theory of Mind)とは、他者の欲求、信念、意図を理解し、推測する人間の能力のこと。
COKEは、心の機械理論のための最初の認知知識グラフである。
論文 参考訳(メタデータ) (2023-05-09T12:36:58Z) - Learning to Influence Human Behavior with Offline Reinforcement Learning [70.7884839812069]
人間の準最適性を捉える必要があるような環境での影響に焦点を当てる。
人間によるオンライン実験は安全ではない可能性があり、環境の高忠実度シミュレータを作成することは現実的ではないことが多い。
オフライン強化学習は、観察された人間・人間の行動の要素を拡張し、組み合わせることで、人間に効果的に影響を及ぼすことができることを示す。
論文 参考訳(メタデータ) (2023-03-03T23:41:55Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。