論文の概要: AI Alignment: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2310.19852v1
- Date: Mon, 30 Oct 2023 15:52:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:30:11.687184
- Title: AI Alignment: A Comprehensive Survey
- Title(参考訳): AIアライメント: 総合的な調査
- Authors: Jiaming Ji, Tianyi Qiu, Boyuan Chen, Borong Zhang, Hantao Lou, Kaile
Wang, Yawen Duan, Zhonghao He, Jiayi Zhou, Zhaowei Zhang, Fanzhi Zeng, Kwan
Yee Ng, Juntao Dai, Xuehai Pan, Aidan O'Gara, Yingshan Lei, Hua Xu, Brian
Tse, Jie Fu, Stephen McAleer, Yaodong Yang, Yizhou Wang, Song-Chun Zhu, Yike
Guo, Wen Gao
- Abstract要約: AIアライメントは、人間の意図や価値観に応じてAIシステムを構築することを目的としている。
何百人ものAI専門家と一般大衆が、AIのリスクに対する懸念を表明している。
AIアライメントに関する最新のシステマティック調査の欠如によって、私たちは、アライメントリサーチのコアコンセプト、方法論、実践を掘り下げました。
- 参考スコア(独自算出の注目度): 71.14382422032104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI alignment aims to build AI systems that are in accordance with human
intentions and values. With the emergence of AI systems possessing superhuman
capabilities, the potential large-scale risks associated with misaligned
systems become apparent. Hundreds of AI experts and public figures have
expressed their concerns about AI risks, arguing that mitigating the risk of
extinction from AI should be a global priority, alongside other societal-scale
risks such as pandemics and nuclear war. Motivated by the lack of an up-to-date
systematic survey on AI alignment, in this paper, we delve into the core
concepts, methodology, and practice of alignment research. To begin with, we
identify four principles as the key objectives of AI alignment: Robustness,
Interpretability, Controllability, and Ethicality (RICE). We outline the
landscape of current alignment research and decompose them into two key
components: forward alignment and backward alignment. The former aims to make
AI systems aligned via alignment training, while the latter aims to gain
evidence about the systems' alignment and govern them appropriately to avoid
exacerbating misalignment risks. On forward alignment, we discuss how to
conduct learning from various types of feedback (a.k.a., outer alignment) and
how to overcome the distribution shift to avoid goal misgeneralization (a.k.a.,
inner alignment). On backward alignment, we discuss verification techniques
that can tell the degree of value alignment for various AI systems deployed,
which can further improve the assurance of forward alignment outcomes.
Based on this, we also release a constantly updated website featuring
tutorials, collections of papers, blogs, and other learning resources at
https://www.alignmentsurvey.com.
- Abstract(参考訳): AIアライメントは、人間の意図や価値観に応じてAIシステムを構築することを目的としている。
超人的能力を持つAIシステムが出現すると、ミスアライメントシステムに関連する潜在的な大規模リスクが明らかになる。
何百人ものAI専門家と一般大衆がAIのリスクに対する懸念を表明し、パンデミックや核戦争のような他の社会規模のリスクと並んで、AIによる絶滅のリスクを軽減すべきであると主張した。
本稿では,aiアライメントに関する最新の体系的調査の欠如に動機づけられて,アライメント研究の中核的概念,方法論,実践について考察する。
まず、ロバスト性、解釈可能性、制御可能性、倫理性(rice)の4つの原則をaiアライメントの重要な目的とします。
現在のアライメント研究の展望を概説し、それらを2つの重要なコンポーネント、前方アライメントと後方アライメントに分解する。
前者はアライメントトレーニングを通じてAIシステムをアライメントさせることを目標とし、後者はシステムアライメントに関する証拠を取得し、不正調整リスクの悪化を避けるためにそれらを適切に管理することを目的としている。
前進アライメントについて,様々なタイプのフィードバック(外部アライメント)から学習を行う方法と,目標の非一般化(内部アライメント)を避けるために分布シフトを克服する方法について議論する。
下位アライメントでは、デプロイされたさまざまなaiシステムの価値アライメントの程度を判断し、前進アライメント結果の保証をさらに向上させる検証手法について検討する。
これに基づいて、私たちは、チュートリアル、論文のコレクション、ブログ、その他の学習リソースをhttps://www.alignmentsurvey.com.com.comで常に更新したwebサイトもリリースしています。
関連論文リスト
- Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - ValueCompass: A Framework of Fundamental Values for Human-AI Alignment [15.35489011078817]
本稿では,心理学的理論と体系的レビューに基づく基本的価値の枠組みであるバリューを紹介する。
本研究では,人間と言語モデル(LM)の価値アライメントを測定するために,実世界の4つのヴィグネットに価値を適用した。
以下に示すのは、人間とLMの危険な相違を明らかにすることであり、例えば、LMは人間によってほとんど意見が一致しない「自己のゴール」のような価値観と一致している。
論文 参考訳(メタデータ) (2024-09-15T02:13:03Z) - Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - On the Essence and Prospect: An Investigation of Alignment Approaches
for Big Models [77.86952307745763]
ビッグデータはAIの分野で画期的なブレークスルーを達成したが、潜在的な懸念を生じさせるかもしれない。
このような懸念に対処するため、これらのモデルを人間の嗜好や価値観に適合させるアライメント技術が導入された。
過去1年間にかなりの進歩があったにもかかわらず、最適アライメント戦略の確立には様々な課題がある。
論文 参考訳(メタデータ) (2024-03-07T04:19:13Z) - Concept Alignment [10.285482205152729]
我々は、私たちが価値を整合させる前に、AIシステムと人間が世界を理解するために使用する概念を整合させることが不可欠であると主張する。
哲学、認知科学、ディープラーニングのアイデアを統合し、概念の整合性の必要性を説明します。
論文 参考訳(メタデータ) (2024-01-09T23:32:18Z) - Fairness in Agreement With European Values: An Interdisciplinary
Perspective on AI Regulation [61.77881142275982]
この学際的立場の論文は、AIにおける公平性と差別に関する様々な懸念を考察し、AI規制がそれらにどう対処するかについて議論する。
私たちはまず、法律、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。
我々は、AI公正性の懸念の観点から、AI法の取り組みを成功に導くために、AIレギュレーションが果たす役割を特定し、提案する。
論文 参考訳(メタデータ) (2022-06-08T12:32:08Z) - Artificial Intelligence, Values and Alignment [2.28438857884398]
AIアライメント問題の規範的および技術的側面は相互に関連している。
アライメントの目標を明確にすることが重要です。
理論家にとっての中心的な課題は、AIの「真の」道徳原則を特定することではない。
論文 参考訳(メタデータ) (2020-01-13T10:32:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。