論文の概要: Addressing Moral Uncertainty using Large Language Models for Ethical Decision-Making
- arxiv url: http://arxiv.org/abs/2503.05724v1
- Date: Mon, 17 Feb 2025 19:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 09:47:27.355261
- Title: Addressing Moral Uncertainty using Large Language Models for Ethical Decision-Making
- Title(参考訳): 大規模言語モデルを用いた倫理的意思決定における道徳的不確実性への対処
- Authors: Rohit K. Dubey, Damian Dailisan, Sachit Mahajan,
- Abstract要約: 本稿では,タスクに依存しない倫理的レイヤを用いて,事前学習された強化学習(RL)モデルを洗練する倫理的意思決定フレームワークを提案する。
倫理的階層は、Jensen-Shannon Divergence と Dempster-Shafer Theory を用いて複数の道徳的観点から信念のスコアを集約する。
この統合学習フレームワークは、複雑な環境においてRLエージェントが道徳的不確実性をナビゲートし、様々なタスクにおいて道徳的に健全な決定を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present an ethical decision-making framework that refines a pre-trained reinforcement learning (RL) model using a task-agnostic ethical layer. Following initial training, the RL model undergoes ethical fine-tuning, where human feedback is replaced by feedback generated from a large language model (LLM). The LLM embodies consequentialist, deontological, virtue, social justice, and care ethics as moral principles to assign belief values to recommended actions during ethical decision-making. An ethical layer aggregates belief scores from multiple LLM-derived moral perspectives using Belief Jensen-Shannon Divergence and Dempster-Shafer Theory into probability scores that also serve as the shaping reward, steering the agent toward choices that align with a balanced ethical framework. This integrated learning framework helps the RL agent navigate moral uncertainty in complex environments and enables it to make morally sound decisions across diverse tasks. Our approach, tested across different LLM variants and compared with other belief aggregation techniques, demonstrates improved consistency, adaptability, and reduced reliance on handcrafted ethical rewards. This method is especially effective in dynamic scenarios where ethical challenges arise unexpectedly, making it well-suited for real-world applications.
- Abstract(参考訳): 本稿では,タスクに依存しない倫理的レイヤを用いて,事前学習された強化学習(RL)モデルを洗練する倫理的意思決定フレームワークを提案する。
最初のトレーニングの後、RLモデルは倫理的な微調整を行い、人間のフィードバックは大きな言語モデル(LLM)から生成されたフィードバックに置き換えられる。
LLMは、倫理的意思決定の際の推奨行動に信念の価値観を割り当てるための道徳的原則として、連続主義、デオントロジー、美徳、社会正義、ケア倫理を具現化している。
倫理的階層は、Jensen-Shannon Divergence と Dempster-Shafer Theory を用いて複数の LLM に由来する道徳的視点から信念のスコアを集約する。
この統合学習フレームワークは、複雑な環境においてRLエージェントが道徳的不確実性をナビゲートし、様々なタスクにおいて道徳的に健全な決定を可能にする。
提案手法は, 異なるLLM変種で検証し, 他の信念集約手法と比較し, 整合性, 適応性, 手作り倫理的報酬への依存度を低下させることを示した。
この方法は、倫理的課題が予期せず発生する動的なシナリオにおいて特に効果的であり、現実世界のアプリケーションに適している。
関連論文リスト
- Moral Persuasion in Large Language Models: Evaluating Susceptibility and Ethical Alignment [3.8916312075738273]
大きな言語モデル(LLM)は、初期決定を変更し、確立した倫理的枠組みと整合させることによって影響を受けます。
本研究は,LLMの道徳的説得に対する感受性を評価するための2つの実験に基づいている。
論文 参考訳(メタデータ) (2024-11-18T16:59:59Z) - Moral Alignment for LLM Agents [3.7414804164475983]
本稿では,基礎エージェントモデルの微調整による強化学習のためのコアヒューマン値を明示的に符号化する報酬関数の設計を紹介する。
我々は,Deontological EthicsとUtilitarianismの伝統的な哲学的枠組みを用いて,我々のアプローチを評価する。
我々は、エージェントが以前開発された自己中心的な戦略を解き放つことを可能にするために、いかに道徳的な微調整を展開できるかを示す。
論文 参考訳(メタデータ) (2024-10-02T15:09:36Z) - A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z) - Informed AI Regulation: Comparing the Ethical Frameworks of Leading LLM
Chatbots Using an Ethics-Based Audit to Assess Moral Reasoning and Normative
Values [0.0]
倫理に基づく監査は、急速に成長するAIの安全性と規制において重要な役割を担っている。
本稿では,GPT-4を含む8つの主要な商用およびオープンソースの大規模言語モデルについて,倫理に基づく監査を行う。
論文 参考訳(メタデータ) (2024-01-09T14:57:30Z) - Hybrid Approaches for Moral Value Alignment in AI Agents: a Manifesto [3.7414804164475983]
次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
連続体としてモデル化された機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。
我々は、適応可能で堅牢だが制御可能で解釈可能なエージェントシステムを構築するために、よりハイブリッドなソリューションが必要であると論じている。
論文 参考訳(メタデータ) (2023-12-04T11:46:34Z) - Unpacking the Ethical Value Alignment in Big Models [46.560886177083084]
本稿では,ビッグモデルに関連するリスクと課題の概要,既存のAI倫理ガイドラインを調査し,これらのモデルの限界から生じる倫理的影響について考察する。
本稿では,大規模モデルの倫理的価値を整合させる新しい概念パラダイムを導入し,アライメント基準,評価,方法に関する有望な研究方向性について議論する。
論文 参考訳(メタデータ) (2023-10-26T16:45:40Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement
Learning [4.2050490361120465]
ボトムアップ学習アプローチは、AIエージェントの倫理的行動の研究と開発にもっと適しているかもしれない。
本稿では,道徳理論に基づく報酬を内在的に動機づけたRLエージェントによる選択の体系的分析を行う。
我々は、異なる種類の道徳が協力、欠陥、搾取の出現に与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-20T09:36:42Z) - Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life
Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。
Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。
我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文 参考訳(メタデータ) (2020-08-20T17:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。