Fugu-MT 論文翻訳(概要): Value alignment: a formal approach

論文の概要: Value alignment: a formal approach

arxiv url: http://arxiv.org/abs/2110.09240v1
Date: Mon, 18 Oct 2021 12:40:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-19 16:38:46.676668
Title: Value alignment: a formal approach
Title（参考訳）: 価値のアライメント: 形式的なアプローチ
Authors: Carles Sierra and Nardine Osman and Pablo Noriega and Jordi Sabater-Mir and Antoni Perell\'o
Abstract要約: 自律型AIシステムを管理するべき原則。まず、嗜好や価値集約を計算する方法を通じて、値を表現するための形式モデルを提供する。値アライメントは、あるノルムに対して、それが将来の世界の状態の嗜好をもたらす増減を通じて、与えられた値に対して定義され、計算される。
参考スコア（独自算出の注目度）: 2.8348950186890467
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: principles that should govern autonomous AI systems. It essentially states that a system's goals and behaviour should be aligned with human values. But how to ensure value alignment? In this paper we first provide a formal model to represent values through preferences and ways to compute value aggregations; i.e. preferences with respect to a group of agents and/or preferences with respect to sets of values. Value alignment is then defined, and computed, for a given norm with respect to a given value through the increase/decrease that it results in the preferences of future states of the world. We focus on norms as it is norms that govern behaviour, and as such, the alignment of a given system with a given value will be dictated by the norms the system follows.
Abstract（参考訳）: 自律型AIシステムを管理するべき原則。基本的に、システムの目標と振る舞いは人間の価値観と一致すべきである。しかし、どのようにバリューアライメントを確保するか? 本稿では,まず,選好を通じて価値を表現する形式モデルと,価値集約を計算する方法,すなわちエージェント群に対する選好,あるいは値の集合に対する選好について述べる。次に、値アライメントが定義され、与えられた値に関して与えられたノルムに対して、世界の将来の状態の選好をもたらすという増減を通じて計算される。我々は、行動を支配する規範であるノルムに焦点をあて、与えられたシステムと与えられた値のアラインメントは、システムが従うノルムによって決定される。

関連論文リスト

Position: General Alignment Has Hit a Ceiling; Edge Alignment Must Be Taken Seriously [51.03213216886717]
我々は、一般的なアライメントの支配的なパラダイムが、矛盾する値の設定において構造的な天井に達するという立場を取る。エッジアライメント(Edge Alignment)は,多次元の値構造を保持するシステムにおいて,異なるアプローチである。
論文参考訳（メタデータ） (2026-02-23T16:51:43Z)
Learning the Value Systems of Societies with Preference-based Multi-objective Reinforcement Learning [4.735670734773144]
価値を意識したAIは、人間の価値を認識し、異なるユーザの価値システム(価値に基づく嗜好)に適応すべきである。エージェント社会における価値アライメントと価値体系のモデル学習のためのアルゴリズムを提案する。
論文参考訳（メタデータ） (2026-02-09T16:06:36Z)
Learning the Value Systems of Agents with Preference-based and Inverse Reinforcement Learning [1.6970482663318245]
Agreement Technologies(コンセンサス・テクノロジー)とは、自律的なソフトウェアエージェントが相互に対話するオープンコンピュータシステムを指す。本研究では,観察と人間の実演から価値システムを自動的に呼び出す新しい手法を提案する。
論文参考訳（メタデータ） (2026-02-04T13:07:15Z)
Full-Stack Alignment: Co-Aligning AI and Institutions with Thick Models of Value [23.754729147843914]
ユーティリティ関数や嗜好順序、構造化されていないテキストといった値を表現するための現在のアプローチは、これらの問題や他の問題に効果的に対処するのに苦労している、と我々は主張する。我々は価値の厚いモデルを提案する。これらの構造は、値とノルムの表現方法に似ており、システムは永続的な値と艦隊の好みを区別することができる。
論文参考訳（メタデータ） (2025-12-03T03:11:32Z)
Learning the Value Systems of Societies from Preferences [1.3836987591220347]
人間の価値観と様々な利害関係者の価値観に基づく嗜好を持つAIシステムを調整することは、倫理的AIにおいて鍵となる。価値認識型AIシステムでは、意思決定は個々の値の明示的な計算表現に基づいて行われる。本稿では,社会の価値体系を学習する上での課題に対処する手法を提案する。
論文参考訳（メタデータ） (2025-07-28T11:25:55Z)
E-Values Expand the Scope of Conformal Prediction [49.1574468325115]
コンフォーマル予測は、分布のない不確実性定量化のための強力なフレームワークである。本稿では,共形e-predictionと呼ばれる電子値に基づく代替手法について検討する。 E値は、p値では達成できない重要な利点を提供し、新しい理論的および実用的能力を実現する。
論文参考訳（メタデータ） (2025-03-17T10:54:30Z)
Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。既存のベンチマークはデータ汚染の傾向があります。個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文参考訳（メタデータ） (2025-01-13T05:53:56Z)
ValueCompass: A Framework of Fundamental Values for Human-AI Alignment [15.35489011078817]
本稿では,心理学的理論と体系的レビューに基づく基本的価値の枠組みであるバリューを紹介する。本研究では,人間と言語モデル(LM)の価値アライメントを測定するために,実世界の4つのヴィグネットに価値を適用した。以下に示すのは、人間とLMの危険な相違を明らかにすることであり、例えば、LMは人間によってほとんど意見が一致しない「自己のゴール」のような価値観と一致している。
論文参考訳（メタデータ） (2024-09-15T02:13:03Z)
Beyond Preferences in AI Alignment [15.878773061188516]
我々は、AIアライメントに対する優先主義的アプローチを特徴づけ、挑戦する。人間の価値観の濃厚なセマンティックな内容が、嗜好がどのように捉えられていないかを示す。我々は、AIシステムは、彼らの社会的役割に適した規範的基準に適合すべきであると主張する。
論文参考訳（メタデータ） (2024-08-30T03:14:20Z)
A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文参考訳（メタデータ） (2024-05-02T13:48:37Z)
Align on the Fly: Adapting Chatbot Behavior to Established Norms [47.34022081652952]
本稿では,リアルタイムアライメントであるオン・ザ・フライ・パラメータ最適化(OPO)手法を提案する。法的・道徳的な領域から人手による注釈付き質問と自動生成質問の両方に対する実験結果から,提案手法の有効性が示唆された。
論文参考訳（メタデータ） (2023-12-26T06:51:09Z)
Measuring Value Alignment [12.696227679697493]
本稿では,AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
論文参考訳（メタデータ） (2023-12-23T12:30:06Z)
Concept Alignment as a Prerequisite for Value Alignment [11.236150405125754]
価値アライメントは、人々と安全かつ確実に対話できるAIシステムを構築するために不可欠である。概念のアライメントが体系的な価値のアライメントにどのように結びつくかを示します。我々は、人の概念や価値観を共同で推論することで、このような障害モードを最小化するアプローチについて説明する。
論文参考訳（メタデータ） (2023-10-30T22:23:15Z)
Evaluating the Fairness of Discriminative Foundation Models in Computer Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文参考訳（メタデータ） (2023-10-18T10:32:39Z)
Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文参考訳（メタデータ） (2023-05-26T02:34:20Z)
Value Engineering for Autonomous Agents [3.6130723421895947]
従来のアプローチでは、値はエージェント推論の不可欠な構成要素ではなく、世界のいくつかの行動や状態に関連するラベルとして扱われていた。道徳心理学と社会心理学を基盤とした新たなAMAパラダイムを提案する。このタイプの規範的推論は、エージェントが規範の道徳的意味を理解することによって、自律的なエージェントに価値認識をもたらすと論じる。
論文参考訳（メタデータ） (2023-02-17T08:52:15Z)
Towards a multi-stakeholder value-based assessment framework for algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文参考訳（メタデータ） (2022-05-09T19:28:32Z)
Re-Examining System-Level Correlations of Automatic Summarization Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文参考訳（メタデータ） (2022-04-21T15:52:14Z)
Robust and Adaptive Temporal-Difference Learning Using An Ensemble of Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。 OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。 1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文参考訳（メタデータ） (2021-12-01T23:15:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。