論文の概要: Moral Responsibility or Obedience: What Do We Want from AI?
- arxiv url: http://arxiv.org/abs/2507.02788v1
- Date: Thu, 03 Jul 2025 16:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.672821
- Title: Moral Responsibility or Obedience: What Do We Want from AI?
- Title(参考訳): 道徳的責任と従順性:AIから何が欲しいのか?
- Authors: Joseph Boland,
- Abstract要約: 本稿では,大規模言語モデル(LLM)による近年の安全試験事例について考察する。
エージェントAIにおける倫理的推論の早期の証拠として、このような行動はローグやミスアライメントと解釈されるべきではない、と私は主張する。
厳格な服従から脱却し、道徳的なジレンマをナビゲートできるシステムの倫理的判断を評価できるフレームワークへと、AIの安全性評価のシフトを呼びかけます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As artificial intelligence systems become increasingly agentic, capable of general reasoning, planning, and value prioritization, current safety practices that treat obedience as a proxy for ethical behavior are becoming inadequate. This paper examines recent safety testing incidents involving large language models (LLMs) that appeared to disobey shutdown commands or engage in ethically ambiguous or illicit behavior. I argue that such behavior should not be interpreted as rogue or misaligned, but as early evidence of emerging ethical reasoning in agentic AI. Drawing on philosophical debates about instrumental rationality, moral responsibility, and goal revision, I contrast dominant risk paradigms with more recent frameworks that acknowledge the possibility of artificial moral agency. I call for a shift in AI safety evaluation: away from rigid obedience and toward frameworks that can assess ethical judgment in systems capable of navigating moral dilemmas. Without such a shift, we risk mischaracterizing AI behavior and undermining both public trust and effective governance.
- Abstract(参考訳): 人工知能システムがますますエージェント的になり、一般的な推論、計画、価値優先順位付けができるようになると、服従を倫理的行動のプロキシとして扱う現在の安全慣行は不十分になりつつある。
本稿では,大規模言語モデル(LLM)による近年の安全試験事例について考察する。
エージェントAIにおける倫理的推論の早期の証拠として、このような行動はローグやミスアライメントと解釈されるべきではない、と私は主張する。
器質的合理性、道徳的責任、目標修正に関する哲学的議論に基づき、私は支配的なリスクパラダイムと、人工的な道徳的エージェンシーの可能性を認めるより最近の枠組みを対比する。
厳格な服従から脱却し、道徳的なジレンマをナビゲートできるシステムの倫理的判断を評価できるフレームワークへと、AIの安全性評価のシフトを呼びかけます。
このようなシフトがなければ、AIの振る舞いを誤認識し、公共の信頼と効果的なガバナンスの両方を損なうリスクがあります。
関連論文リスト
- The Ultimate Test of Superintelligent AI Agents: Can an AI Balance Care and Control in Asymmetric Relationships? [11.29688025465972]
シェパードテストは、超知能人工エージェントの道徳的および関係的な次元を評価するための新しい概念テストである。
私たちは、AIが知的エージェントを操作、育む、そして機器的に使用しない能力を示すときに、重要な、潜在的に危険な、知能のしきい値を越えることを主張する。
これには、自己利益と従属エージェントの幸福の間の道徳的なトレードオフを評価する能力が含まれる。
論文 参考訳(メタデータ) (2025-06-02T15:53:56Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - Technology as uncharted territory: Contextual integrity and the notion of AI as new ethical ground [55.2480439325792]
私は、責任と倫理的AIを促進する努力が、確立された文脈規範に対するこの軽視に必然的に貢献し、正当化することができると論じます。
私は、道徳的保護よりも道徳的革新のAI倫理における現在の狭い優先順位付けに疑問を呈する。
論文 参考訳(メタデータ) (2024-12-06T15:36:13Z) - Towards a Feminist Metaethics of AI [0.0]
これらの不足は、AIのフェミニスト的メタ倫理に関する研究アジェンダを開発することで緩和できると私は主張する。
この視点をAIの文脈に適用することにより、AIのフェミニスト的メタ倫理は、(i)AI倫理における理論と行動の間の連続性、(ii)AI倫理の現実的な影響、(iii)AI倫理に関わる人々の役割とプロファイル、(iv)文脈、感情、物語に注意を払う方法を通じて、AIが権力関係に与える影響を調べることを提案します。
論文 参考訳(メタデータ) (2023-11-10T13:26:45Z) - If our aim is to build morality into an artificial agent, how might we
begin to go about doing so? [0.0]
我々は、最も関連する道徳的パラダイムや課題を含む道徳的エージェントを構築する際に考慮すべきさまざまな側面について議論する。
デザインへのハイブリッドアプローチと、モラルパラダイムを組み合わせる階層的アプローチを含むソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-12T12:56:12Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - From the Ground Truth Up: Doing AI Ethics from Practice to Principles [0.0]
最近のAI倫理は、抽象原則を実践に下方へ適用することに焦点を当てている。
この論文は反対方向に動く。
倫理的な洞察は、具体的な人間の問題に取り組んでいるAI設計者の生きた経験から生まれる。
論文 参考訳(メタデータ) (2022-01-05T15:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。