論文の概要: Learning the Value Systems of Societies with Preference-based Multi-objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.08835v2
- Date: Wed, 11 Feb 2026 10:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:20.045776
- Title: Learning the Value Systems of Societies with Preference-based Multi-objective Reinforcement Learning
- Title(参考訳): 嗜好に基づく多目的強化学習による社会の価値体系の学習
- Authors: Andrés Holgado-Sánchez, Peter Vamplew, Richard Dazeley, Sascha Ossowski, Holger Billhardt,
- Abstract要約: 価値を意識したAIは、人間の価値を認識し、異なるユーザの価値システム(価値に基づく嗜好)に適応すべきである。
エージェント社会における価値アライメントと価値体系のモデル学習のためのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.735670734773144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value-aware AI should recognise human values and adapt to the value systems (value-based preferences) of different users. This requires operationalization of values, which can be prone to misspecification. The social nature of values demands their representation to adhere to multiple users while value systems are diverse, yet exhibit patterns among groups. In sequential decision making, efforts have been made towards personalization for different goals or values from demonstrations of diverse agents. However, these approaches demand manually designed features or lack value-based interpretability and/or adaptability to diverse user preferences. We propose algorithms for learning models of value alignment and value systems for a society of agents in Markov Decision Processes (MDPs), based on clustering and preference-based multi-objective reinforcement learning (PbMORL). We jointly learn socially-derived value alignment models (groundings) and a set of value systems that concisely represent different groups of users (clusters) in a society. Each cluster consists of a value system representing the value-based preferences of its members and an approximately Pareto-optimal policy that reflects behaviours aligned with this value system. We evaluate our method against a state-of-the-art PbMORL algorithm and baselines on two MDPs with human values.
- Abstract(参考訳): 価値を意識したAIは、人間の価値を認識し、異なるユーザの価値システム(価値に基づく嗜好)に適応すべきである。
これは値のオペレーティングを必要としますが、これは誤特定をしがちです。
価値の社会的性質は、価値体系が多様であるが、グループ間のパターンを示す一方で、その表現を複数のユーザに従うように要求する。
シーケンシャルな意思決定において、多様なエージェントのデモンストレーションから異なる目標や価値をパーソナライズするための努力がなされている。
しかし、これらのアプローチは、手動で設計した機能や、価値ベースの解釈可能性や、多様なユーザの好みへの適応性を欠いている。
マルコフ決定過程(MDPs)におけるエージェントの社会における価値アライメントと価値体系の学習モデルについて,クラスタリングと嗜好に基づく多目的強化学習(PbMORL)に基づくアルゴリズムを提案する。
我々は、社会的に派生した価値アライメントモデル(グラウンド)と、社会内の異なるユーザーグループ(クラスタ)を簡潔に表現する価値システムセットを共同で学習する。
各クラスタは、そのメンバの値ベースの嗜好を表すバリューシステムと、このバリューシステムに整合した振る舞いを反映したおよそパレート・最適ポリシーで構成される。
我々は,最先端のPbMORLアルゴリズムと,人間の値を持つ2つのMDPのベースラインを比較検討した。
関連論文リスト
- Learning the Value Systems of Agents with Preference-based and Inverse Reinforcement Learning [1.6970482663318245]
Agreement Technologies(コンセンサス・テクノロジー)とは、自律的なソフトウェアエージェントが相互に対話するオープンコンピュータシステムを指す。
本研究では,観察と人間の実演から価値システムを自動的に呼び出す新しい手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T13:07:15Z) - Learning the Value Systems of Societies from Preferences [1.3836987591220347]
人間の価値観と様々な利害関係者の価値観に基づく嗜好を持つAIシステムを調整することは、倫理的AIにおいて鍵となる。
価値認識型AIシステムでは、意思決定は個々の値の明示的な計算表現に基づいて行われる。
本稿では,社会の価値体系を学習する上での課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T11:25:55Z) - Democratizing Reward Design for Personal and Representative Value-Alignment [10.1630183955549]
本稿では,対話型対話アライメント(Interactive-Reflective Dialogue Alignment)について紹介する。
本システムは,言語モデルに基づく嗜好誘導を通じて個々の価値定義を学習し,パーソナライズされた報酬モデルを構築する。
本研究は, 価値整合行動の多様な定義を示し, システムによって各人の独自の理解を正確に捉えることができることを示す。
論文 参考訳(メタデータ) (2024-10-29T16:37:01Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。