論文の概要: The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers
- arxiv url: http://arxiv.org/abs/2604.24155v1
- Date: Mon, 27 Apr 2026 08:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.799937
- Title: The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers
- Title(参考訳): 調整対象問題:人間・AIシステム・設計者の分断的モラル判断
- Authors: Benjamin Minhao Chen, Xinyu Xie,
- Abstract要約: マシンの振る舞いと人間の価値を一致させようとする試みは、AI意思決定を管理するべき道徳的枠組みに関する根本的な疑問を提起する。
我々は、AIシステム、同じ状況で行動する人間、そしてそれらを設計する人間に対して、人々が有意義に異なる道徳的基準を適用していることを示します。
- 参考スコア(独自算出の注目度): 2.5782420501870287
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The quest to align machine behavior with human values raises fundamental questions about the moral frameworks that should govern AI decision-making. Much alignment research assumes that the appropriate benchmark is how humans themselves would act in a given situation. Research into agent-type value forks has challenged this assumption by showing that people do not always hold AI systems to the same moral standards as humans. Yet this challenge is subject to two further questions: whether people evaluate AI behavior differently when its human origins are made visible, and whether people hold the humans who program AI systems to different moral standards than either the humans or the machines under evaluation. An experimental study on 1,002 U.S. adults measured moral judgments in a runaway mine train scenario, varying the subject of evaluation across four conditions: a repairman, a repair robot, a repair robot programmed by company engineers, and company engineers programming a repair robot. We find no significant variation in the moral standards applied to the repairman and the robot. However, moral judgments shifted substantially when robot actions were described as the product of human design. Participants exhibited markedly more deontological reasoning when evaluating the robot programmed by engineers or the engineers programming it, suggesting that making human design visible activates heightened moral constraints. These findings provide evidence that people apply meaningfully different moral standards to AI systems, to humans acting in the same situation, and to the humans who design them. We call this divergence the alignment target problem. Whether these plural normative standards can be reconciled into a coherent framework for AI governance in high-stakes domains remains an open question.
- Abstract(参考訳): マシンの振る舞いと人間の価値を一致させようとする試みは、AI意思決定を管理するべき道徳的枠組みに関する根本的な疑問を提起する。
多くのアライメント研究は、適切なベンチマークは、人間自身が特定の状況でどのように振舞うかを仮定している。
エージェントタイプのバリューフォークの研究は、人々が常に人間と同じ道徳的基準にAIシステムを保有しているわけではないことを示すことで、この仮定に異議を唱えている。
しかし、この課題にはさらに2つの疑問がある: 人間がAIの行動を評価しているかどうか、そして人間がAIシステムを評価対象の人間や機械と異なる道徳的基準でプログラムしているかどうか。
1,002人の成人を対象とした実験的研究は、脱走した鉱山列車のシナリオで道徳的判断を計測し、修理作業員、修理ロボット、会社エンジニアによってプログラムされた修理ロボット、修理ロボットをプログラムする会社エンジニアの4つの条件で評価対象を変更した。
修理工とロボットに適用される道徳基準の有意な変動は見つからない。
しかし、人間のデザインの産物としてロボットの行動が記述されたとき、道徳的判断は大幅に変化した。
参加者は、エンジニアやエンジニアによってプログラムされたロボットを評価する際に、より非オントロジーな推論を示し、人間のデザインを目に見えるものにすることで、道徳的制約が高められることを示唆した。
これらの発見は、人々がAIシステム、同じ状況で行動する人間、そしてそれらを設計する人間に対して有意義に異なる道徳的基準を適用していることを示す。
我々はこの分岐をアライメントターゲット問題と呼ぶ。
これらの複数の規範的標準が、ハイテイクドメインにおけるAIガバナンスの一貫性のあるフレームワークに和解できるかどうかは、未解決の問題である。
関連論文リスト
- Whether We Care, How We Reason: The Dual Role of Anthropomorphism and Moral Foundations in Robot Abuse [10.376222111441399]
本研究では,ロボットの乱用に対する人為的レベルと道徳的基礎がどう反応するかを検討した。
その結果、人間同型は、人間がロボットに対する道徳的配慮を延長するかどうかを判断し、道徳的基礎は、そのような配慮をどう考えるかを形成することが明らかとなった。
論文 参考訳(メタデータ) (2026-01-27T17:34:31Z) - A theory of appropriateness with applications to generative artificial intelligence [56.23261221948216]
我々は、AIによる意思決定を適切に評価し、改善するために、人間の意思決定がいかに適切かを理解する必要がある。
本稿では,人間の社会でどのように機能するか,脳でどのように実装されるのか,生成AI技術の展開に責任があるのか,という,適切性の理論について述べる。
論文 参考訳(メタデータ) (2024-12-26T00:54:03Z) - The AI Double Standard: Humans Judge All AIs for the Actions of One [0.0]
AIが増殖するにつれて、あるAIに対する道徳的な態度が他のAIに対する態度に流出することで、知覚が絡まってしまう可能性がある。
我々は、2つの事前登録された実験において、AIや人間のエージェントの一見有害で不道徳な行動が、他のAIや人間に対する態度にどのように影響するかをテストした。
論文 参考訳(メタデータ) (2024-12-08T19:26:52Z) - Attributions toward Artificial Agents in a modified Moral Turing Test [0.6284264304179837]
我々は、一般的な高度なAI言語モデルであるGPT-4と実際の人間の道徳的評価を区別するよう、人々に求めている。
299人の米国成人の代表的サンプルは、AIの道徳的推論を、ほぼすべての次元において、人間よりも品質が優れていると評価した。
言語モデルの出現は、人間よりも質が高いと認識される道徳的反応を生み出すことができるようになり、人々がAIから潜在的に有害な道徳的ガイダンスを受け入れる可能性があるという懸念が高まる。
論文 参考訳(メタデータ) (2024-04-03T13:00:47Z) - HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。
次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。
模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Meaningful human control over AI systems: beyond talking the talk [8.351027101823705]
私たちは、AIベースのシステムが有意義な人間の制御下にある必要がある4つの特性を特定します。
第一に、人間とAIアルゴリズムが相互作用するシステムは、道徳的にロードされた状況の明確に定義された領域を持つべきである。
第2に、システム内の人間とAIエージェントは、適切かつ相互に互換性のある表現を持つべきである。
第三に、人間に帰属する責任は、その人のシステムを支配する能力と権限に相応すべきである。
論文 参考訳(メタデータ) (2021-11-25T11:05:37Z) - I Need Your Advice... Human Perceptions of Robot Moral Advising
Behaviors [2.0743129221959284]
ロボットは道徳的助言のシナリオでどのようにコミュニケーションをとるべきかを探る。
我々の結果は、人間もロボットも、個人の生活に共通の利益をもたらすアドバイスを提供するときに、より肯定的に判断されることを示唆している。
これらの結果は、ロボットに対する人々の道徳的反応と自律的道徳的エージェントの設計に関する批判的な新しい疑問を提起する。
論文 参考訳(メタデータ) (2021-04-14T16:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。