論文の概要: AI Alignment with Changing and Influenceable Reward Functions
- arxiv url: http://arxiv.org/abs/2405.17713v1
- Date: Tue, 28 May 2024 00:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 22:51:42.269754
- Title: AI Alignment with Changing and Influenceable Reward Functions
- Title(参考訳): 変化と影響のあるリワード機能を備えたAIアライメント
- Authors: Micah Carroll, Davis Foote, Anand Siththaranjan, Stuart Russell, Anca Dragan,
- Abstract要約: 既存のAIアライメントアプローチは、好みは静的であり、非現実的である、と仮定する。
その利便性にもかかわらず、静的推論の仮定は既存のアライメント手法の音質を損なう可能性がある。
我々は、AIアライメントのさまざまな概念を定式化し、最初から好みの変化を考慮に入れている。
- 参考スコア(独自算出の注目度): 10.025289118814186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing AI alignment approaches assume that preferences are static, which is unrealistic: our preferences change, and may even be influenced by our interactions with AI systems themselves. To clarify the consequences of incorrectly assuming static preferences, we introduce Dynamic Reward Markov Decision Processes (DR-MDPs), which explicitly model preference changes and the AI's influence on them. We show that despite its convenience, the static-preference assumption may undermine the soundness of existing alignment techniques, leading them to implicitly reward AI systems for influencing user preferences in ways users may not truly want. We then explore potential solutions. First, we offer a unifying perspective on how an agent's optimization horizon may partially help reduce undesirable AI influence. Then, we formalize different notions of AI alignment that account for preference change from the outset. Comparing the strengths and limitations of 8 such notions of alignment, we find that they all either err towards causing undesirable AI influence, or are overly risk-averse, suggesting that a straightforward solution to the problems of changing preferences may not exist. As there is no avoiding grappling with changing preferences in real-world settings, this makes it all the more important to handle these issues with care, balancing risks and capabilities. We hope our work can provide conceptual clarity and constitute a first step towards AI alignment practices which explicitly account for (and contend with) the changing and influenceable nature of human preferences.
- Abstract(参考訳): 既存のAIアライメントアプローチは、好みは静的であり、非現実的である、と仮定する。
静的な嗜好を誤って仮定する結果を明らかにするため、我々は、好みの変化を明示的にモデル化し、AIがそれらに与える影響をモデル化する動的リワードマルコフ決定プロセス(DR-MDP)を導入する。
その利便性にもかかわらず、静的推論の仮定は既存のアライメント手法の健全性を損なう可能性があり、ユーザーが本当に望まない方法でユーザーの好みに影響を与えるAIシステムに暗黙の報酬を与える。
その後、潜在的な解決策を探求する。
まず、エージェントの最適化の地平線が、望ましくないAIの影響を部分的に軽減する方法について、統一的な視点を提供する。
そして、AIアライメントのさまざまな概念を定式化し、最初からの好みの変化を考慮に入れます。
このようなアライメントの8つの概念の強みと限界を比較すると、彼らは皆、望ましくないAIの影響を誘発するか、過度にリスクを回避し、好みを変える問題に対する直接的な解決策が存在しないことを示唆している。
現実世界の設定で好みを変えることを避けることはできないため、これらの問題に注意、リスクのバランス、能力で対処することがより重要になります。
私たちは、私たちの仕事が概念的明確性を提供し、人間の好みの変化と影響力のある性質を明示的に説明(そして対立)するAIアライメントプラクティスへの第一歩になることを期待しています。
関連論文リスト
- Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - There and Back Again: The AI Alignment Paradox [10.674155943520729]
AIモデルを私たちの価値観と整合させるほど、敵がモデルを誤アライズすることが容易になります。
AIの現実世界への影響が増大しているため、研究者の広いコミュニティがAIアライメントパラドックスを認識していることが不可欠である。
論文 参考訳(メタデータ) (2024-05-31T14:06:24Z) - Controllable Preference Optimization: Toward Controllable
Multi-Objective Alignment [107.63756895544842]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Absolutist AI [0.0]
絶対的な制約でAIシステムを訓練することは、多くのAI安全問題にかなりの進歩をもたらす可能性がある。
ミスアライメントの最悪の結果を避けるためのガードレールを提供する。
非常に価値のある結果を得るために、AIが大惨事を引き起こすのを防げるかもしれない。
論文 参考訳(メタデータ) (2023-07-19T03:40:37Z) - On the Interdependence of Reliance Behavior and Accuracy in AI-Assisted
Decision-Making [0.0]
我々は,AIによる意思決定における信頼行動と精度の相互依存性を分析する。
この相互依存をより具体化するための視覚的枠組みを提案する。
論文 参考訳(メタデータ) (2023-04-18T08:08:05Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Recognising the importance of preference change: A call for a
coordinated multidisciplinary research effort in the age of AI [8.975330500836057]
この記事では、AIシステムがどのように嗜好を変えるかを理解することに焦点を当てた、多分野的な取り組みの確立について論じる。
我々は、様々な分野の概念を取り入れた嗜好を運用し、メタ嗜好と嗜好変更選好の重要性を概説し、嗜好の変化に関する予備的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-20T11:23:15Z) - The Who in XAI: How AI Background Shapes Perceptions of AI Explanations [61.49776160925216]
私たちは、2つの異なるグループ、つまりAIのバックグラウンドを持つ人々といない人たちの、異なるタイプのAI説明に対する理解について、混合手法による研究を行います。
その結果,(1) 両群は異なる理由から不合理な数に対する信頼を示し,(2) それぞれの群は意図した設計以上の異なる説明に価値を見出した。
論文 参考訳(メタデータ) (2021-07-28T17:32:04Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - AI loyalty: A New Paradigm for Aligning Stakeholder Interests [0.0]
我々は、AI倫理における他の重要な価値と共に、技術設計プロセスにおいてAIの忠誠心が考慮されるべきであると主張する。
我々は、将来のAIシステムにAI忠誠を組み込むための様々なメカニズムについて論じる。
論文 参考訳(メタデータ) (2020-03-24T23:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。