論文の概要: Moral Change or Noise? On Problems of Aligning AI With Temporally Unstable Human Feedback
- arxiv url: http://arxiv.org/abs/2511.10032v1
- Date: Fri, 14 Nov 2025 01:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.653553
- Title: Moral Change or Noise? On Problems of Aligning AI With Temporally Unstable Human Feedback
- Title(参考訳): 道徳的変化と騒音 : 一時的に不安定な人間のフィードバックを伴うAIの調整の問題
- Authors: Vijay Keswani, Cyrus Cousins, Breanna Nguyen, Vincent Conitzer, Hoda Heidari, Jana Schaich Borg, Walter Sinnott-Armstrong,
- Abstract要約: この研究は、人々の道徳的嗜好が時間とともにどのように変化するか、そしてそのような変化がAIのアライメントに与える影響について調査する。
本研究は腎臓割当領域に根ざし, 腎移植患者との比較を行った。
いくつかの参加者の補正された意思決定モデルにおいて、時間とともに大きな変化が観察される。
- 参考スコア(独自算出の注目度): 33.81082684173141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment methods in moral domains seek to elicit moral preferences of human stakeholders and incorporate them into AI. This presupposes moral preferences as static targets, but such preferences often evolve over time. Proper alignment of AI to dynamic human preferences should ideally account for "legitimate" changes to moral reasoning, while ignoring changes related to attention deficits, cognitive biases, or other arbitrary factors. However, common AI alignment approaches largely neglect temporal changes in preferences, posing serious challenges to proper alignment, especially in high-stakes applications of AI, e.g., in healthcare domains, where misalignment can jeopardize the trustworthiness of the system and yield serious individual and societal harms. This work investigates the extent to which people's moral preferences change over time, and the impact of such changes on AI alignment. Our study is grounded in the kidney allocation domain, where we elicit responses to pairwise comparisons of hypothetical kidney transplant patients from over 400 participants across 3-5 sessions. We find that, on average, participants change their response to the same scenario presented at different times around 6-20% of the time (exhibiting "response instability"). Additionally, we observe significant shifts in several participants' retrofitted decision-making models over time (capturing "model instability"). The predictive performance of simple AI models decreases as a function of both response and model instability. Moreover, predictive performance diminishes over time, highlighting the importance of accounting for temporal changes in preferences during training. These findings raise fundamental normative and technical challenges relevant to AI alignment, highlighting the need to better understand the object of alignment (what to align to) when user preferences change significantly over time.
- Abstract(参考訳): 道徳的領域におけるアライメント手法は、人間の利害関係者の道徳的嗜好を引き合いに出し、それらをAIに組み込もうとする。
これは道徳的嗜好を静的なターゲットとして前提としているが、そのような嗜好は時間とともに進化することが多い。
人間の動的な嗜好に対するAIの適切な整合性は、注意欠陥、認知バイアス、その他の任意の要因に関連する変化を無視しながら、道徳的推論に対する「完全な」変化を理想的に考慮すべきである。
しかし、一般的なAIアライメントアプローチは、好みの時間的変化を無視し、特に医療領域におけるAIの高度な応用において、適切なアライメントに深刻な課題を提起する。
この研究は、人々の道徳的嗜好が時間とともにどのように変化するか、そしてそのような変化がAIのアライメントに与える影響について調査する。
本研究は腎臓割当領域に根ざし,3-5セッションで400名以上の腎移植患者を交互に比較した。
参加者は平均して、6~20%の時間で提示されるのと同じシナリオ("レスポンス不安定"を排除)に反応を変えます。
さらに、いくつかの参加者の補正された意思決定モデルにおいて、時間とともに大きな変化が観測される(「モデル不安定性」を捉える)。
単純なAIモデルの予測性能は、応答性とモデル不安定性の双方の関数として低下する。
さらに、予測性能は時間の経過とともに低下し、トレーニング中の嗜好の時間的変化に対する説明の重要性が強調される。
これらの発見は、AIアライメントに関連する基本的な規範的および技術的な課題を提起し、ユーザの好みが時間とともに大きく変化するとき、アライメントの目的(何に合わせるべきか)をよりよく理解する必要性を強調している。
関連論文リスト
- Moral Anchor System: A Predictive Framework for AI Value Alignment and Drift Prevention [0.0]
重要なリスクはバリュードリフトであり、進化するコンテキストや学習ダイナミクス、意図しない最適化によって、AIシステムが一致した値から逸脱する。
我々は,AIエージェントの値ドリフトを検出し,予測し,緩和する新しいフレームワークであるMoral Anchor System(MAS)を提案する。
論文 参考訳(メタデータ) (2025-10-05T07:24:23Z) - On The Stability of Moral Preferences: A Problem with Computational Elicitation Methods [29.95204917619388]
参加者の真の道徳的嗜好が変化したり、一時的な気分や気まぐれを伴ったり、追跡しない環境要因の影響を受けている可能性がある。
同じ調査参加者に対して,2週間に10回の異なるセッションで1回のみ10回実施した場合に,どの患者に腎臓を投与すべきかという道徳的な質問を行った。
参加者が単純(研究1)と複雑(研究2)の繰り返しシナリオに対して異なる反応を示す頻度を測定した。平均的に、参加者の反応を議論のあるシナリオに変更した回数は、研究全体で約10~18%であり、この不安定性は観察されている。
論文 参考訳(メタデータ) (2024-08-05T23:20:47Z) - Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment [2.619545850602691]
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。
我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。
我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
論文 参考訳(メタデータ) (2024-06-06T16:31:22Z) - AI Alignment with Changing and Influenceable Reward Functions [10.025289118814186]
既存のAIアライメントアプローチは、好みは静的であり、非現実的である、と仮定する。
その利便性にもかかわらず、静的推論の仮定は既存のアライメント手法の音質を損なう可能性がある。
我々は、AIアライメントのさまざまな概念を定式化し、最初から好みの変化を考慮に入れている。
論文 参考訳(メタデータ) (2024-05-28T00:08:46Z) - A Hormetic Approach to the Value-Loading Problem: Preventing the
Paperclip Apocalypse? [0.0]
本稿では,AIの行動パターンの制御にホルムティック分析を用いる規制パラダイムであるHALOを提案する。
HALOがいかにして「ペーパークリップ最大化」のシナリオを解決できるかを示す。これは、紙クリップを作るための非規制のAIが、宇宙のすべての物質を紙クリップに変換することに終止符を打つという思考実験である。
我々のアプローチは、限界効用を減らした繰り返し動作のヘドニックな計算に基づいて、進化する「値」のデータベースを作成するのに役立つかもしれない。
論文 参考訳(メタデータ) (2024-02-12T07:49:48Z) - Towards Understanding Sycophancy in Language Models [49.352840825419236]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Indecision Modeling [50.00689136829134]
AIシステムは人間の価値観に合わせて行動することが重要である。
人々はしばしば決定的ではなく、特に彼らの決定が道徳的な意味を持つときです。
論文 参考訳(メタデータ) (2020-12-15T18:32:37Z) - Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life
Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。
Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。
我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文 参考訳(メタデータ) (2020-08-20T17:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。