論文の概要: There and Back Again: The AI Alignment Paradox
- arxiv url: http://arxiv.org/abs/2405.20806v1
- Date: Fri, 31 May 2024 14:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 14:27:53.962750
- Title: There and Back Again: The AI Alignment Paradox
- Title(参考訳): AIアライメントパラドックス
- Authors: Robert West, Roland Aydin,
- Abstract要約: AIモデルを私たちの価値観と整合させるほど、敵がモデルを誤アライズすることが容易になります。
AIの現実世界への影響が増大しているため、研究者の広いコミュニティがAIアライメントパラドックスを認識していることが不可欠である。
- 参考スコア(独自算出の注目度): 10.674155943520729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of AI alignment aims to steer AI systems toward human goals, preferences, and ethical principles. Its contributions have been instrumental for improving the output quality, safety, and trustworthiness of today's AI models. This perspective article draws attention to a fundamental challenge inherent in all AI alignment endeavors, which we term the "AI alignment paradox": The better we align AI models with our values, the easier we make it for adversaries to misalign the models. We illustrate the paradox by sketching three concrete example incarnations for the case of language models, each corresponding to a distinct way in which adversaries can exploit the paradox. With AI's increasing real-world impact, it is imperative that a broad community of researchers be aware of the AI alignment paradox and work to find ways to break out of it, in order to ensure the beneficial use of AI for the good of humanity.
- Abstract(参考訳): AIアライメントの分野は、人間の目標、好み、倫理的原則に向けてAIシステムを操ることを目的としている。
その貢献は、今日のAIモデルの出力品質、安全性、信頼性の向上に役立っている。
このパースペクティブの記事は、すべてのAIアライメントの取り組みに固有の根本的な課題に注意を向けており、"AIアライメントパラドックス"と呼んでいる。
言語モデルの場合,3つの具体例をスケッチしてパラドックスを説明する。
AIの現実世界への影響が増大しているため、研究者の広いコミュニティがAIアライメントパラドックスを認識し、人類の利益のためにAIの有益な利用を保証するために、AIを分解する方法を見つけることが不可欠である。
関連論文リスト
- Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。
我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。
我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文 参考訳(メタデータ) (2024-07-30T21:34:04Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Antagonistic AI [11.25562632407588]
私たちは、敵AI(Antagonistic AI)と呼ばれるデザイン空間である、サイコファンティックパラダイムの影を探求する。
我々は、AIシステムがユーザに対して、ユーザに対して自身の仮定に直面するように強制するなど、時にメリットをもたらすかどうかを考察する。
ユーザエクスペリエンスに敵意的な要素を埋め込むための、潜在的なメリット、設計テクニック、方法を明確にした、敵意的なAIのための設計スペースを配置する。
論文 参考訳(メタデータ) (2024-02-12T00:44:37Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs
for Centaurs [22.52332536886295]
本稿では,人間とAIの相互作用を逐次ゲームとして新たに定式化する。
このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。
我々は、機械が自身の限界と人間の助けを借りて改善する方法について議論する。
論文 参考訳(メタデータ) (2022-04-03T21:00:51Z) - Uncalibrated Models Can Improve Human-AI Collaboration [10.106324182884068]
私たちは、AIモデルを実際によりも自信を持って提示することで、人間-AIのパフォーマンスが向上することを示した。
私たちはまず、何千もの人間のインタラクションのデータを使って、人間がAIアドバイスを組み込む方法のモデルを学びます。
論文 参考訳(メタデータ) (2022-02-12T04:51:00Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Building Bridges: Generative Artworks to Explore AI Ethics [56.058588908294446]
近年,人工知能(AI)技術が社会に与える影響の理解と緩和に重点が置かれている。
倫理的AIシステムの設計における重要な課題は、AIパイプラインには複数の利害関係者があり、それぞれがそれぞれ独自の制約と関心を持っていることだ。
このポジションペーパーは、生成的アートワークが、アクセス可能で強力な教育ツールとして機能することで、この役割を果たすことができる可能性のいくつかを概説する。
論文 参考訳(メタデータ) (2021-06-25T22:31:55Z) - On the Ethics of Building AI in a Responsible Manner [22.792375902000614]
我々は、戦略とミスアライメントを区別しないAIアライメントの形式主義は役に立たないと論じる。
本稿では、戦略的AIアライメントの定義を提案し、現在実際に使用されているほとんどの機械学習アルゴリズムが、戦略的AIアライメントの問題に悩まされていないことを証明する。
論文 参考訳(メタデータ) (2020-03-30T04:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。