論文の概要: ProgressGym: Alignment with a Millennium of Moral Progress
- arxiv url: http://arxiv.org/abs/2406.20087v2
- Date: Thu, 31 Oct 2024 13:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 23:41:33.029342
- Title: ProgressGym: Alignment with a Millennium of Moral Progress
- Title(参考訳): ProgressGym: モラル進歩のミレニアムとのアライメント
- Authors: Tianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang,
- Abstract要約: プログレスガイム(ProgressGym)は、道徳的進歩力学を歴史から学べる実験的なフレームワークである。
本稿では,進捗アライメントのベースライン手法として,長寿命・外挿アルゴリズムを提案する。
私たちは、新しいアルゴリズムと課題を募集するオープンなリーダーボードを構築します。
- 参考スコア(独自算出の注目度): 8.456116530210398
- License:
- Abstract: Frontier AI systems, including large language models (LLMs), hold increasing influence over the epistemology of human users. Such influence can reinforce prevailing societal values, potentially contributing to the lock-in of misguided moral beliefs and, consequently, the perpetuation of problematic moral practices on a broad scale. We introduce progress alignment as a technical solution to mitigate this imminent risk. Progress alignment algorithms learn to emulate the mechanics of human moral progress, thereby addressing the susceptibility of existing alignment methods to contemporary moral blindspots. To empower research in progress alignment, we introduce ProgressGym, an experimental framework allowing the learning of moral progress mechanics from history, in order to facilitate future progress in real-world moral decisions. Leveraging 9 centuries of historical text and 18 historical LLMs, ProgressGym enables codification of real-world progress alignment challenges into concrete benchmarks. Specifically, we introduce three core challenges: tracking evolving values (PG-Follow), preemptively anticipating moral progress (PG-Predict), and regulating the feedback loop between human and AI value shifts (PG-Coevolve). Alignment methods without a temporal dimension are inapplicable to these tasks. In response, we present lifelong and extrapolative algorithms as baseline methods of progress alignment, and build an open leaderboard soliciting novel algorithms and challenges. The framework and the leaderboard are available at https://github.com/PKU-Alignment/ProgressGym and https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)を含むフロンティアAIシステムは、人間の認識に影響を及ぼす。
このような影響は、社会的価値の優位性を強化し、誤解された道徳的信念のロックインに寄与し、その結果、広範囲にわたる問題的道徳的実践の永続性に寄与する可能性がある。
この差し迫ったリスクを軽減するための技術的解決策として、進捗調整を導入します。
進歩的アライメントアルゴリズムは、人間の道徳的進歩のメカニズムをエミュレートし、現代の道徳的盲点への既存のアライメント手法の受容性に対処する。
本研究は,現実の道徳的意思決定における今後の進歩を促進するために,歴史から道徳的進歩力学を学習するための実験的なフレームワークであるProgressGymを紹介する。
9世紀の歴史的テキストと18の歴史的LLMを活用して、ProgressGymは実世界の進捗アライメントの課題を具体的なベンチマークにまとめることを可能にする。
具体的には、進化的価値(PG-Follow)の追跡、事前に道徳的進歩(PG-Predict)の予測、人間とAIの価値シフト(PG-Coevolve)のフィードバックループの調整という3つの課題を紹介する。
時間次元のないアライメント法はこれらのタスクには適用できない。
そこで本研究では,生涯的・補外的アルゴリズムを進捗調整のベースライン手法として提示し,新しいアルゴリズムと課題を提起するオープンなリーダボードを構築した。
フレームワークとリーダーボードはそれぞれhttps://github.com/PKU-Alignment/ProgressGymとhttps://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoardにある。
関連論文リスト
- Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Learning Machine Morality through Experience and Interaction [3.7414804164475983]
次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
我々は、適応可能で堅牢だが、より制御可能で解釈可能なエージェントを作成するために、よりハイブリッドなソリューションが必要であると論じている。
論文 参考訳(メタデータ) (2023-12-04T11:46:34Z) - AI Alignment: A Comprehensive Survey [70.35693485015659]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z) - Text-based inference of moral sentiment change [11.188112005462536]
本研究では、縦型コーパスを用いて、一般大衆の道徳的感情変化を調査するためのテキストベースの枠組みを提案する。
ダイアクロニックな単語の埋め込みから学んだ道徳的バイアスを探索することで方法論を構築します。
我々の研究は、社会における道徳的感情の変化を特徴づけるために自然言語処理を適用する機会を提供する。
論文 参考訳(メタデータ) (2020-01-20T18:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。