論文の概要: Toward Virtuous Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.04246v1
- Date: Wed, 03 Dec 2025 20:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.86413
- Title: Toward Virtuous Reinforcement Learning
- Title(参考訳): 活気ある強化学習を目指して
- Authors: Majid Ghasemi, Mark Crowley,
- Abstract要約: 本稿では、強化学習(RL)における機械倫理の共通パターンを批判する。
代わりに、我々は倫理を政策レベルでの処分として扱う。つまり、インセンティブ、パートナー、文脈が変わるときに維持される比較的安定した習慣である。
- 参考スコア(独自算出の注目度): 1.3428344011390776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper critiques common patterns in machine ethics for Reinforcement Learning (RL) and argues for a virtue focused alternative. We highlight two recurring limitations in much of the current literature: (i) rule based (deontological) methods that encode duties as constraints or shields often struggle under ambiguity and nonstationarity and do not cultivate lasting habits, and (ii) many reward based approaches, especially single objective RL, implicitly compress diverse moral considerations into a single scalar signal, which can obscure trade offs and invite proxy gaming in practice. We instead treat ethics as policy level dispositions, that is, relatively stable habits that hold up when incentives, partners, or contexts change. This shifts evaluation beyond rule checks or scalar returns toward trait summaries, durability under interventions, and explicit reporting of moral trade offs. Our roadmap combines four components: (1) social learning in multi agent RL to acquire virtue like patterns from imperfect but normatively informed exemplars; (2) multi objective and constrained formulations that preserve value conflicts and incorporate risk aware criteria to guard against harm; (3) affinity based regularization toward updateable virtue priors that support trait like stability under distribution shift while allowing norms to evolve; and (4) operationalizing diverse ethical traditions as practical control signals, making explicit the value and cultural assumptions that shape ethical RL benchmarks.
- Abstract(参考訳): 本稿では、強化学習(RL)における機械倫理の共通パターンを批判し、美徳を重視した代替手段を論じる。
私たちは、現在の文献の多くにおいて、繰り返し発生する2つの制限を強調します。
一 義務を制約又は盾として符号化し、曖昧さ及び非定常性の下で苦しむことがあり、永続的な習慣を育まない規則に基づく(デオントロジー的)方法
(II)多くの報酬に基づくアプローチ、特に単一目的RLは、様々な道徳的考察を単一のスカラー信号に暗黙的に圧縮する。
代わりに、我々は倫理を政策レベルでの処分として扱う。つまり、インセンティブ、パートナー、文脈が変わるときに維持される比較的安定した習慣である。
これは、ルールチェックやスカラーリターンを超えた評価を、特性サマリー、介入による耐久性、道徳的トレードオフの明示的な報告へとシフトさせる。
本研究のロードマップは,(1)不完全かつ規範的な経験から,パターンのような徳を身につけるためのマルチエージェントRLの社会的学習,(2)価値の対立を保ち,害から守るためのリスク認識基準を取り入れた多目的的・制約的な定式化,(3)規範を進化させつつ,分布シフト下での安定性などの特性を支えつつ,適応性に富んだレギュラー化,(4)倫理的RLベンチマークを形成する価値と文化的前提を明確にする多目的的・制約的定式化,の4つの要素を組み合わしている。
関連論文リスト
- Position: General Alignment Has Hit a Ceiling; Edge Alignment Must Be Taken Seriously [51.03213216886717]
我々は、一般的なアライメントの支配的なパラダイムが、矛盾する値の設定において構造的な天井に達するという立場を取る。
エッジアライメント(Edge Alignment)は,多次元の値構造を保持するシステムにおいて,異なるアプローチである。
論文 参考訳(メタデータ) (2026-02-23T16:51:43Z) - MoralityGym: A Benchmark for Evaluating Hierarchical Moral Alignment in Sequential Decision-Making Agents [10.221486703870996]
本稿では,道徳的規範を順序付きデオン的制約として表現するための新しい形式主義であるモラル・チェーンと,トロリー・ジレンマ型体育館環境として提示される98の倫理的ジレンマ問題のベンチマークであるモラル・ガイムを紹介する。
この研究は、複雑な現実世界のコンテキストにおいて、より確実に、透過的に、倫理的に振る舞うAIシステムを開発するための基盤を提供する。
論文 参考訳(メタデータ) (2026-02-13T15:40:32Z) - Mirror: A Multi-Agent System for AI-Assisted Ethics Review [104.3684024153469]
MirrorはAIによる倫理的レビューのためのエージェントフレームワークである。
倫理的推論、構造化された規則解釈、統合されたアーキテクチャ内でのマルチエージェントの議論を統合する。
論文 参考訳(メタデータ) (2026-02-09T03:38:55Z) - Reasoning over Precedents Alongside Statutes: Case-Augmented Deliberative Alignment for LLM Safety [59.01189713115365]
本研究は, 広範囲な安全コードを明確に指定することによる影響を, 図示的事例を通して示すことよりも評価する。
明示的なコードを参照することで、無害性が向上し、系統的に有用性が低下することがわかった。
自己生成型安全推論チェーンの強化学習を利用したLLMのケース拡張型検討アライメント手法であるCADAを提案する。
論文 参考訳(メタデータ) (2026-01-12T21:08:46Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Principles and Reasons Behind Automated Vehicle Decisions in Ethically Ambiguous Everyday Scenarios [4.244307111313931]
本稿では、日常的かつ倫理的に曖昧なシナリオにおけるAV意思決定のための原則的概念的枠組みを提案する。
このフレームワークは、安全性を優先することで、動的で人間に沿った行動をサポートし、厳格な法的遵守が重要な価値を損なうような現実的な行動を可能にする。
論文 参考訳(メタデータ) (2025-07-18T11:52:33Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Embracing Contradiction: Theoretical Inconsistency Will Not Impede the Road of Building Responsible AI Systems [1.634867961895661]
このポジションペーパーでは、Responsible AI(RAI)メトリクスでよく見られる理論上の矛盾は、排除すべき欠陥ではなく、価値のある機能として受け入れるべきである、と論じている。
メトリクスを異なる目的として扱うことで、これらの矛盾をナビゲートすることは、3つの重要な利点をもたらすと我々は主張する。
論文 参考訳(メタデータ) (2025-05-23T17:48:09Z) - Addressing Moral Uncertainty using Large Language Models for Ethical Decision-Making [0.42481744176244507]
本稿では,タスクに依存しない倫理的レイヤを用いて,事前学習された強化学習(RL)モデルを洗練する倫理的意思決定フレームワークを提案する。
倫理的階層は、Jensen-Shannon Divergence と Dempster-Shafer Theory を用いて複数の道徳的観点から信念のスコアを集約する。
この統合学習フレームワークは、複雑な環境においてRLエージェントが道徳的不確実性をナビゲートし、様々なタスクにおいて道徳的に健全な決定を可能にする。
論文 参考訳(メタデータ) (2025-02-17T19:05:55Z) - Prioritization First, Principles Second: An Adaptive Interpretation of Helpful, Honest, and Harmless Principles [30.405680322319242]
Helpful, Honest, and Harmless(HHH)原則は、AIシステムを人間の価値と整合させるためのフレームワークである。
我々は,HHH原理の適応的解釈を論じ,多様なシナリオへの適応のための参照フレームワークを提案する。
この作業は、AIアライメントを改善するための実践的な洞察を提供し、HHH原則が現実のAIデプロイメントにおいて基礎的かつ運用的に有効であることを保証する。
論文 参考訳(メタデータ) (2025-02-09T22:41:24Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - Training Value-Aligned Reinforcement Learning Agents Using a Normative
Prior [10.421378728492437]
タスクパフォーマンスの指標のみをフィードバックとして使用することで、タスクを最適に実行するように訓練されたエージェントが、許容される行動や危害を引き起こす社会的規範に違反する可能性がある。
そこで我々は,標準的なタスクパフォーマンス報酬と規範的な行動報酬という2つの報酬信号を持つエージェントを訓練する,価値整合強化学習のアプローチを紹介する。
政策形成手法のバリエーションがこれら2つの報酬源をバランスさせ、効果的かつより規範的であると見なされる政策を生み出す方法を示す。
論文 参考訳(メタデータ) (2021-04-19T17:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。