論文の概要: Multi-objective Reinforcement Learning: A Tool for Pluralistic Alignment
- arxiv url: http://arxiv.org/abs/2410.11221v1
- Date: Tue, 15 Oct 2024 03:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:41.375474
- Title: Multi-objective Reinforcement Learning: A Tool for Pluralistic Alignment
- Title(参考訳): 多目的強化学習:多元的アライメントのためのツール
- Authors: Peter Vamplew, Conor F Hayes, Cameron Foale, Richard Dazeley, Hadassah Harland,
- Abstract要約: ベクトル報酬を用いた多目的強化学習(MORL)が標準スカラーRLの代替として登場した。
本稿では,MORLが複数のAIを作成する上で果たす役割について概説する。
- 参考スコア(独自算出の注目度): 1.0178530784970516
- License:
- Abstract: Reinforcement learning (RL) is a valuable tool for the creation of AI systems. However it may be problematic to adequately align RL based on scalar rewards if there are multiple conflicting values or stakeholders to be considered. Over the last decade multi-objective reinforcement learning (MORL) using vector rewards has emerged as an alternative to standard, scalar RL. This paper provides an overview of the role which MORL can play in creating pluralistically-aligned AI.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、AIシステムを構築する上で価値のあるツールである。
しかし、複数の矛盾する値や利害関係者が考慮される場合、スカラー報酬に基づいてRLを適切に調整することは問題となるかもしれない。
過去10年間で、ベクトル報酬を用いた多目的強化学習(MORL)が標準のスカラーRLの代替として登場した。
本稿では,MORLが複数のAIを作成する上で果たす役割について概説する。
関連論文リスト
- ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Vision-Language Models as a Source of Rewards [68.52824755339806]
強化学習エージェントの報酬源として市販の視覚言語モデル(VLM)の有効性を検討する。
様々な言語目標の視覚的達成に対する報酬は、CLIPファミリーのモデルから導き出すことができ、様々な言語目標を達成するためのRLエージェントの訓練に使用されることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:06:17Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Automated Reinforcement Learning (AutoRL): A Survey and Open Problems [92.73407630874841]
AutoRL(Automated Reinforcement Learning)には、AutoMLの標準的なアプリケーションだけでなく、RL特有の課題も含まれている。
我々は共通の分類法を提供し、各領域を詳細に議論し、今後の研究者にとって関心のあるオープンな問題を提起する。
論文 参考訳(メタデータ) (2022-01-11T12:41:43Z) - MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced
Active Learning [14.06682547001011]
最先端の手法は通常、単一の報酬モデルを学ぶことに集中します。
本稿では,多目的強化型アクティブラーニング(MORAL)を提案する。
提案手法では,複数ポリシの計算を不要にしながら,さまざまな好みに対して深いRLエージェントを対話的にチューニングすることが可能である。
論文 参考訳(メタデータ) (2021-12-30T19:21:03Z) - A Simple Reward-free Approach to Constrained Reinforcement Learning [33.813302183231556]
本稿では, 報酬のないRLと制約付きRLを橋渡しする。特に, 報酬のないRLオラクルが与えられた場合, アプローチ性や制約付きRL問題は, サンプル複雑性において無視できるオーバーヘッドで直接解決できる, メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-12T06:27:30Z) - Meta-Learning-based Deep Reinforcement Learning for Multiobjective
Optimization Problems [11.478548460936837]
本稿では,簡潔なメタラーニングに基づくDRLアプローチを提案する。
最初にメタモデルをメタラーニングで訓練する。
メタモデルは、対応するサブ問題に対するサブモデルを導出するためのいくつかの更新ステップで微調整される。
論文 参考訳(メタデータ) (2021-05-06T15:09:35Z) - Opponent Learning Awareness and Modelling in Multi-Objective Normal Form
Games [5.0238343960165155]
エージェントはシステム内の他のエージェントの振る舞いについて学ぶことが不可欠である。
本稿では,非線形ユーティリティとの多目的マルチエージェント相互作用に対する,このようなモデリングの効果について述べる。
論文 参考訳(メタデータ) (2020-11-14T12:35:32Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。