論文の概要: Dynamic value alignment through preference aggregation of multiple
objectives
- arxiv url: http://arxiv.org/abs/2310.05871v1
- Date: Mon, 9 Oct 2023 17:07:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 22:08:04.856025
- Title: Dynamic value alignment through preference aggregation of multiple
objectives
- Title(参考訳): 複数の目的の選好アグリゲーションによる動的値アライメント
- Authors: Marcin Korecki, Damian Dailisan, Cesare Carissimo
- Abstract要約: 動的値アライメントの方法論として,アライメントすべき値が動的に変化する手法を提案する。
本稿では,複数の目的に対応するためにDeep $Q$-Learningを拡張し,単純化した2脚交点上で評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of ethical AI systems is currently geared toward setting
objective functions that align with human objectives. However, finding such
functions remains a research challenge, while in RL, setting rewards by hand is
a fairly standard approach. We present a methodology for dynamic value
alignment, where the values that are to be aligned with are dynamically
changing, using a multiple-objective approach. We apply this approach to extend
Deep $Q$-Learning to accommodate multiple objectives and evaluate this method
on a simplified two-leg intersection controlled by a switching agent.Our
approach dynamically accommodates the preferences of drivers on the system and
achieves better overall performance across three metrics (speeds, stops, and
waits) while integrating objectives that have competing or conflicting actions.
- Abstract(参考訳): 倫理的AIシステムの開発は、現在、人間の目的に沿った客観的機能の設定を目的としている。
しかしながら、そのような関数を見つけることは研究課題であり、RLでは手動で報酬を設定することはかなり標準的なアプローチである。
本稿では,複数目的のアプローチを用いて,協調すべき値が動的に変化する動的値アライメント手法を提案する。
このアプローチは,複数の目的に対応するために,より深い$q$学習を応用し,スイッチングエージェントによって制御される簡易な2脚交差点において,この手法を評価する。我々のアプローチは,システム上でドライバの好みを動的に適応し,3つの指標(速度,停止,待機)をまたいだ全体的なパフォーマンス向上を実現し,競合するあるいは競合するアクションを持つ目標を統合する。
関連論文リスト
- Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Physical Reasoning Using Dynamics-Aware Models [32.402950370430496]
本研究は、オブジェクトダイナミクスに関する追加の監視信号で報酬価値を高めることにより、この制限に対処することを目的とする。
具体的には、2つの対象物の軌道間の距離測度を定義し、この距離測度を用いて2つの環境ロールアウトの類似性を特徴づける。
我々は、正しい報酬を予測することに加えて、この尺度に従ってロールアウトを正しくランク付けするようにモデルを訓練する。
論文 参考訳(メタデータ) (2021-02-20T12:56:16Z) - Momentum-based Gradient Methods in Multi-Objective Recommendation [30.894950420437926]
単目的問題の解法として,多目的モデルに依存しないAdamize法を提案する。
我々は2つの多目的レコメンデータシステムと3つの異なる目的の組み合わせに対して、多目的Adamizeの利点を評価する。
論文 参考訳(メタデータ) (2020-09-10T07:12:21Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。
フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文 参考訳(メタデータ) (2020-05-15T13:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。