論文の概要: Toward Virtuous Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.04246v1
- Date: Wed, 03 Dec 2025 20:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.86413
- Title: Toward Virtuous Reinforcement Learning
- Title(参考訳): 活気ある強化学習を目指して
- Authors: Majid Ghasemi, Mark Crowley,
- Abstract要約: 本稿では、強化学習(RL)における機械倫理の共通パターンを批判する。
代わりに、我々は倫理を政策レベルでの処分として扱う。つまり、インセンティブ、パートナー、文脈が変わるときに維持される比較的安定した習慣である。
- 参考スコア(独自算出の注目度): 1.3428344011390776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper critiques common patterns in machine ethics for Reinforcement Learning (RL) and argues for a virtue focused alternative. We highlight two recurring limitations in much of the current literature: (i) rule based (deontological) methods that encode duties as constraints or shields often struggle under ambiguity and nonstationarity and do not cultivate lasting habits, and (ii) many reward based approaches, especially single objective RL, implicitly compress diverse moral considerations into a single scalar signal, which can obscure trade offs and invite proxy gaming in practice. We instead treat ethics as policy level dispositions, that is, relatively stable habits that hold up when incentives, partners, or contexts change. This shifts evaluation beyond rule checks or scalar returns toward trait summaries, durability under interventions, and explicit reporting of moral trade offs. Our roadmap combines four components: (1) social learning in multi agent RL to acquire virtue like patterns from imperfect but normatively informed exemplars; (2) multi objective and constrained formulations that preserve value conflicts and incorporate risk aware criteria to guard against harm; (3) affinity based regularization toward updateable virtue priors that support trait like stability under distribution shift while allowing norms to evolve; and (4) operationalizing diverse ethical traditions as practical control signals, making explicit the value and cultural assumptions that shape ethical RL benchmarks.
- Abstract(参考訳): 本稿では、強化学習(RL)における機械倫理の共通パターンを批判し、美徳を重視した代替手段を論じる。
私たちは、現在の文献の多くにおいて、繰り返し発生する2つの制限を強調します。
一 義務を制約又は盾として符号化し、曖昧さ及び非定常性の下で苦しむことがあり、永続的な習慣を育まない規則に基づく(デオントロジー的)方法
(II)多くの報酬に基づくアプローチ、特に単一目的RLは、様々な道徳的考察を単一のスカラー信号に暗黙的に圧縮する。
代わりに、我々は倫理を政策レベルでの処分として扱う。つまり、インセンティブ、パートナー、文脈が変わるときに維持される比較的安定した習慣である。
これは、ルールチェックやスカラーリターンを超えた評価を、特性サマリー、介入による耐久性、道徳的トレードオフの明示的な報告へとシフトさせる。
本研究のロードマップは,(1)不完全かつ規範的な経験から,パターンのような徳を身につけるためのマルチエージェントRLの社会的学習,(2)価値の対立を保ち,害から守るためのリスク認識基準を取り入れた多目的的・制約的な定式化,(3)規範を進化させつつ,分布シフト下での安定性などの特性を支えつつ,適応性に富んだレギュラー化,(4)倫理的RLベンチマークを形成する価値と文化的前提を明確にする多目的的・制約的定式化,の4つの要素を組み合わしている。
関連論文リスト
- Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Embracing Contradiction: Theoretical Inconsistency Will Not Impede the Road of Building Responsible AI Systems [1.634867961895661]
このポジションペーパーでは、Responsible AI(RAI)メトリクスでよく見られる理論上の矛盾は、排除すべき欠陥ではなく、価値のある機能として受け入れるべきである、と論じている。
メトリクスを異なる目的として扱うことで、これらの矛盾をナビゲートすることは、3つの重要な利点をもたらすと我々は主張する。
論文 参考訳(メタデータ) (2025-05-23T17:48:09Z) - Addressing Moral Uncertainty using Large Language Models for Ethical Decision-Making [0.42481744176244507]
本稿では,タスクに依存しない倫理的レイヤを用いて,事前学習された強化学習(RL)モデルを洗練する倫理的意思決定フレームワークを提案する。
倫理的階層は、Jensen-Shannon Divergence と Dempster-Shafer Theory を用いて複数の道徳的観点から信念のスコアを集約する。
この統合学習フレームワークは、複雑な環境においてRLエージェントが道徳的不確実性をナビゲートし、様々なタスクにおいて道徳的に健全な決定を可能にする。
論文 参考訳(メタデータ) (2025-02-17T19:05:55Z) - Prioritization First, Principles Second: An Adaptive Interpretation of Helpful, Honest, and Harmless Principles [30.405680322319242]
Helpful, Honest, and Harmless(HHH)原則は、AIシステムを人間の価値と整合させるためのフレームワークである。
我々は,HHH原理の適応的解釈を論じ,多様なシナリオへの適応のための参照フレームワークを提案する。
この作業は、AIアライメントを改善するための実践的な洞察を提供し、HHH原則が現実のAIデプロイメントにおいて基礎的かつ運用的に有効であることを保証する。
論文 参考訳(メタデータ) (2025-02-09T22:41:24Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - Training Value-Aligned Reinforcement Learning Agents Using a Normative
Prior [10.421378728492437]
タスクパフォーマンスの指標のみをフィードバックとして使用することで、タスクを最適に実行するように訓練されたエージェントが、許容される行動や危害を引き起こす社会的規範に違反する可能性がある。
そこで我々は,標準的なタスクパフォーマンス報酬と規範的な行動報酬という2つの報酬信号を持つエージェントを訓練する,価値整合強化学習のアプローチを紹介する。
政策形成手法のバリエーションがこれら2つの報酬源をバランスさせ、効果的かつより規範的であると見なされる政策を生み出す方法を示す。
論文 参考訳(メタデータ) (2021-04-19T17:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。