論文の概要: Learning the Value Systems of Agents with Preference-based and Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.04518v1
- Date: Wed, 04 Feb 2026 13:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.532972
- Title: Learning the Value Systems of Agents with Preference-based and Inverse Reinforcement Learning
- Title(参考訳): 嗜好に基づく逆強化学習によるエージェントの価値体系の学習
- Authors: Andrés Holgado-Sánchez, Holger Billhardt, Alberto Fernández, Sascha Ossowski,
- Abstract要約: Agreement Technologies(コンセンサス・テクノロジー)とは、自律的なソフトウェアエージェントが相互に対話するオープンコンピュータシステムを指す。
本研究では,観察と人間の実演から価値システムを自動的に呼び出す新しい手法を提案する。
- 参考スコア(独自算出の注目度): 1.6970482663318245
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Agreement Technologies refer to open computer systems in which autonomous software agents interact with one another, typically on behalf of humans, in order to come to mutually acceptable agreements. With the advance of AI systems in recent years, it has become apparent that such agreements, in order to be acceptable to the involved parties, must remain aligned with ethical principles and moral values. However, this is notoriously difficult to ensure, especially as different human users (and their software agents) may hold different value systems, i.e. they may differently weigh the importance of individual moral values. Furthermore, it is often hard to specify the precise meaning of a value in a particular context in a computational manner. Methods to estimate value systems based on human-engineered specifications, e.g. based on value surveys, are limited in scale due to the need for intense human moderation. In this article, we propose a novel method to automatically \emph{learn} value systems from observations and human demonstrations. In particular, we propose a formal model of the \emph{value system learning} problem, its instantiation to sequential decision-making domains based on multi-objective Markov decision processes, as well as tailored preference-based and inverse reinforcement learning algorithms to infer value grounding functions and value systems. The approach is illustrated and evaluated by two simulated use cases.
- Abstract(参考訳): Agreement Technologies(コンセンサス・テクノロジー)とは、自律的なソフトウェアエージェントが人間に代わって相互に許容される合意に達するために相互に対話するオープン・コンピュータ・システムを指す。
近年のAIシステムの進歩により、関連する当事者に受け入れられるためには、倫理的原則や道徳的価値観に従わなければならないことが明らかになっている。
しかし、これは、特に異なる人間のユーザー(およびそのソフトウェアエージェント)が異なる価値システムを保持すること、すなわち、個々の道徳的価値の重要性を異なる方法で評価することを保証するのが困難である。
さらに、特定の文脈における値の正確な意味を計算方法で特定することはしばしば困難である。
人間工学的仕様に基づく価値システム(例えば、価値調査に基づく価値システム)を推定する方法は、強い人間のモデレーションを必要とするため、大規模に限定されている。
本稿では,観察と人間による実演から,emph{learn}値システムを自動的に生成する新しい手法を提案する。
特に,多目的マルコフ決定プロセスに基づく逐次決定領域へのインスタンス化,および値基底関数と値体系を推論するための選好ベースおよび逆強化学習アルゴリズムの形式モデルを提案する。
このアプローチは2つのシミュレートされたユースケースによって説明され、評価される。
関連論文リスト
- Rethinking How AI Embeds and Adapts to Human Values: Challenges and Opportunities [0.6113558800822273]
AIシステムは長期的な推論を実装し、進化する価値に適応し続けなければならない、と私たちは主張する。
価値アライメントは、人間の価値の完全なスペクトルに対処するためにより多くの理論を必要とする。
我々は、価値アライメントに関連する課題を特定し、価値アライメント研究を進めるための方向性を示す。
論文 参考訳(メタデータ) (2025-08-23T18:19:05Z) - Learning the Value Systems of Societies from Preferences [1.3836987591220347]
人間の価値観と様々な利害関係者の価値観に基づく嗜好を持つAIシステムを調整することは、倫理的AIにおいて鍵となる。
価値認識型AIシステムでは、意思決定は個々の値の明示的な計算表現に基づいて行われる。
本稿では,社会の価値体系を学習する上での課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T11:25:55Z) - Measuring Value Alignment [12.696227679697493]
本稿では,AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。
このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
論文 参考訳(メタデータ) (2023-12-23T12:30:06Z) - Learning Human-like Representations to Enable Learning Human Values [11.236150405125754]
我々は,人間とAIエージェントの表現的アライメントが人的価値の学習に与える影響を考察する。
このような表現的アライメントは、パーソナライゼーションの文脈において、人間の価値を安全に学習し、探索する上で有効であることを示す。
論文 参考訳(メタデータ) (2023-12-21T18:31:33Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Human Values in Multiagent Systems [3.5027291542274357]
本稿では,社会科学における価値の形式的表現について述べる。
我々は,この形式的表現を用いて,マルチエージェントシステムにおける価値整合性を実現する上で重要な課題を明確化する。
論文 参考訳(メタデータ) (2023-05-04T11:23:59Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。