論文の概要: Value alignment: a formal approach
- arxiv url: http://arxiv.org/abs/2110.09240v1
- Date: Mon, 18 Oct 2021 12:40:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 16:38:46.676668
- Title: Value alignment: a formal approach
- Title(参考訳): 価値のアライメント: 形式的なアプローチ
- Authors: Carles Sierra and Nardine Osman and Pablo Noriega and Jordi
Sabater-Mir and Antoni Perell\'o
- Abstract要約: 自律型AIシステムを管理するべき原則。
まず、嗜好や価値集約を計算する方法を通じて、値を表現するための形式モデルを提供する。
値アライメントは、あるノルムに対して、それが将来の世界の状態の嗜好をもたらす増減を通じて、与えられた値に対して定義され、計算される。
- 参考スコア(独自算出の注目度): 2.8348950186890467
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: principles that should govern autonomous AI systems. It essentially states
that a system's goals and behaviour should be aligned with human values. But
how to ensure value alignment? In this paper we first provide a formal model to
represent values through preferences and ways to compute value aggregations;
i.e. preferences with respect to a group of agents and/or preferences with
respect to sets of values. Value alignment is then defined, and computed, for a
given norm with respect to a given value through the increase/decrease that it
results in the preferences of future states of the world. We focus on norms as
it is norms that govern behaviour, and as such, the alignment of a given system
with a given value will be dictated by the norms the system follows.
- Abstract(参考訳): 自律型AIシステムを管理するべき原則。
基本的に、システムの目標と振る舞いは人間の価値観と一致すべきである。
しかし、どのようにバリューアライメントを確保するか?
本稿では,まず,選好を通じて価値を表現する形式モデルと,価値集約を計算する方法,すなわちエージェント群に対する選好,あるいは値の集合に対する選好について述べる。
次に、値アライメントが定義され、与えられた値に関して与えられたノルムに対して、世界の将来の状態の選好をもたらすという増減を通じて計算される。
我々は、行動を支配する規範であるノルムに焦点をあて、与えられたシステムと与えられた値のアラインメントは、システムが従うノルムによって決定される。
関連論文リスト
- ValueCompass: A Framework of Fundamental Values for Human-AI Alignment [15.35489011078817]
本稿では,心理学的理論と体系的レビューに基づく基本的価値の枠組みであるバリューを紹介する。
本研究では,人間と言語モデル(LM)の価値アライメントを測定するために,実世界の4つのヴィグネットに価値を適用した。
以下に示すのは、人間とLMの危険な相違を明らかにすることであり、例えば、LMは人間によってほとんど意見が一致しない「自己のゴール」のような価値観と一致している。
論文 参考訳(メタデータ) (2024-09-15T02:13:03Z) - Beyond Preferences in AI Alignment [15.878773061188516]
我々は、AIアライメントに対する優先主義的アプローチを特徴づけ、挑戦する。
人間の価値観の濃厚なセマンティックな内容が、嗜好がどのように捉えられていないかを示す。
我々は、AIシステムは、彼らの社会的役割に適した規範的基準に適合すべきであると主張する。
論文 参考訳(メタデータ) (2024-08-30T03:14:20Z) - Align on the Fly: Adapting Chatbot Behavior to Established Norms [47.34022081652952]
本稿では,リアルタイムアライメントであるオン・ザ・フライ・パラメータ最適化(OPO)手法を提案する。
法的・道徳的な領域から人手による注釈付き質問と自動生成質問の両方に対する実験結果から,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2023-12-26T06:51:09Z) - Measuring Value Alignment [12.696227679697493]
本稿では,AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。
このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
論文 参考訳(メタデータ) (2023-12-23T12:30:06Z) - Concept Alignment as a Prerequisite for Value Alignment [11.236150405125754]
価値アライメントは、人々と安全かつ確実に対話できるAIシステムを構築するために不可欠である。
概念のアライメントが体系的な価値のアライメントにどのように結びつくかを示します。
我々は、人の概念や価値観を共同で推論することで、このような障害モードを最小化するアプローチについて説明する。
論文 参考訳(メタデータ) (2023-10-30T22:23:15Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Value Engineering for Autonomous Agents [3.6130723421895947]
従来のアプローチでは、値はエージェント推論の不可欠な構成要素ではなく、世界のいくつかの行動や状態に関連するラベルとして扱われていた。
道徳心理学と社会心理学を基盤とした新たなAMAパラダイムを提案する。
このタイプの規範的推論は、エージェントが規範の道徳的意味を理解することによって、自律的なエージェントに価値認識をもたらすと論じる。
論文 参考訳(メタデータ) (2023-02-17T08:52:15Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。