論文の概要: AI Alignment: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2310.19852v4
- Date: Mon, 26 Feb 2024 18:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:58:39.008245
- Title: AI Alignment: A Comprehensive Survey
- Title(参考訳): AIアライメント: 総合的な調査
- Authors: Jiaming Ji, Tianyi Qiu, Boyuan Chen, Borong Zhang, Hantao Lou, Kaile
Wang, Yawen Duan, Zhonghao He, Jiayi Zhou, Zhaowei Zhang, Fanzhi Zeng, Kwan
Yee Ng, Juntao Dai, Xuehai Pan, Aidan O'Gara, Yingshan Lei, Hua Xu, Brian
Tse, Jie Fu, Stephen McAleer, Yaodong Yang, Yizhou Wang, Song-Chun Zhu, Yike
Guo, Wen Gao
- Abstract要約: AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
- 参考スコア(独自算出の注目度): 71.14382422032104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI alignment aims to make AI systems behave in line with human intentions and
values. As AI systems grow more capable, so do risks from misalignment. To
provide a comprehensive and up-to-date overview of the alignment field, in this
survey, we delve into the core concepts, methodology, and practice of
alignment. First, we identify four principles as the key objectives of AI
alignment: Robustness, Interpretability, Controllability, and Ethicality
(RICE). Guided by these four principles, we outline the landscape of current
alignment research and decompose them into two key components: forward
alignment and backward alignment. The former aims to make AI systems aligned
via alignment training, while the latter aims to gain evidence about the
systems' alignment and govern them appropriately to avoid exacerbating
misalignment risks. On forward alignment, we discuss techniques for learning
from feedback and learning under distribution shift. On backward alignment, we
discuss assurance techniques and governance practices.
We also release and continually update the website (www.alignmentsurvey.com)
which features tutorials, collections of papers, blog posts, and other
resources.
- Abstract(参考訳): AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うことを目的としている。
AIシステムがより有能になるにつれて、ミスアライメントによるリスクも高まる。
アライメント分野の包括的かつ最新の概観を提供するため,本調査ではアライメントの中核的概念,方法論,実践について考察する。
まず、ロバスト性、解釈可能性、制御可能性、倫理性(rice)の4つの原則をaiアライメントの重要な目的とします。
これら4つの原則に基づいて、現在のアライメント研究の展望を概説し、それらを2つの重要なコンポーネント、前方アライメントと後方アライメントに分解する。
前者はアライメントトレーニングを通じてAIシステムをアライメントさせることを目標とし、後者はシステムアライメントに関する証拠を取得し、不正調整リスクの悪化を避けるためにそれらを適切に管理することを目的としている。
本稿では,分散シフト下でのフィードバックと学習から学ぶ手法について考察する。
後方調整について,保証技術とガバナンスの実践について論じる。
また、チュートリアル、論文のコレクション、ブログ投稿、その他のリソースを含むウェブサイト(www.alignmentsurvey.com)もリリースし、継続的に更新しています。
関連論文リスト
- On the Essence and Prospect: An Investigation of Alignment Approaches
for Big Models [77.86952307745763]
ビッグデータはAIの分野で画期的なブレークスルーを達成したが、潜在的な懸念を生じさせるかもしれない。
このような懸念に対処するため、これらのモデルを人間の嗜好や価値観に適合させるアライメント技術が導入された。
過去1年間にかなりの進歩があったにもかかわらず、最適アライメント戦略の確立には様々な課題がある。
論文 参考訳(メタデータ) (2024-03-07T04:19:13Z) - Concept Alignment [10.285482205152729]
我々は、私たちが価値を整合させる前に、AIシステムと人間が世界を理解するために使用する概念を整合させることが不可欠であると主張する。
哲学、認知科学、ディープラーニングのアイデアを統合し、概念の整合性の必要性を説明します。
論文 参考訳(メタデータ) (2024-01-09T23:32:18Z) - AI Alignment in the Design of Interactive AI: Specification Alignment,
Process Alignment, and Evaluation Support [32.828851258409216]
AIアライメントは、AIが望ましい結果をもたらすことを保証するという全体的な問題を、望ましくない副作用なしに考慮している。
本稿では、AIアライメントの概念を基本的な3ステップのインタラクションサイクルにマッピングする。
対話的なアライメント機構を提供するインターフェースが,質的に異なるユーザエクスペリエンスを実現する方法を示す。
論文 参考訳(メタデータ) (2023-10-23T14:33:11Z) - Factoring the Matrix of Domination: A Critical Review and Reimagination
of Intersectionality in AI Fairness [55.037030060643126]
間欠性は、社会的不平等の持続性を調べるための重要な枠組みである。
我々は、公平性を効果的に運用するために、交差性を分析的枠組みとして採用することが重要であると論じる。
論文 参考訳(メタデータ) (2023-03-16T21:02:09Z) - A Multi-Level Framework for the AI Alignment Problem [0.0]
個人,組織,国家,グローバルの4つのレベルにおいて,この問題を考察するための枠組みを提案する。
我々は、各レベルの重要な疑問と考察を概説し、AIコンテンツモデレーションのトピックへのこのフレームワークの適用を実証する。
論文 参考訳(メタデータ) (2023-01-10T01:09:07Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - Steps Towards Value-Aligned Systems [0.0]
AI/MLを含む)アルゴリズムによる意思決定アーティファクトは、私たちの意思決定エコシステムの確立され成長している部分です。
現在の文献は、個々のアーティファクトが社会的規範や期待にどのように違反するかの例でいっぱいです。
この議論は、社会技術システムにおける価値アライメントを評価するためのより構造化されたシステムレベルのアプローチを論じている。
論文 参考訳(メタデータ) (2020-02-10T22:47:30Z) - Artificial Intelligence, Values and Alignment [2.28438857884398]
AIアライメント問題の規範的および技術的側面は相互に関連している。
アライメントの目標を明確にすることが重要です。
理論家にとっての中心的な課題は、AIの「真の」道徳原則を特定することではない。
論文 参考訳(メタデータ) (2020-01-13T10:32:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。