論文の概要: Ethics2vec: aligning automatic agents and human preferences
- arxiv url: http://arxiv.org/abs/2508.07673v1
- Date: Mon, 11 Aug 2025 06:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.976153
- Title: Ethics2vec: aligning automatic agents and human preferences
- Title(参考訳): Ethics2vec: 自動エージェントと人間の嗜好の整合性
- Authors: Gianluca Bontempi,
- Abstract要約: 本稿では,自動エージェント決定(あるいは制御法則)戦略を多変量ベクトル表現にマッピングする方法を提案する。
Ethics2Vec法は、自動エージェントがバイナリ決定を行う場合に最初に導入される。
- 参考スコア(独自算出の注目度): 0.19580473532948395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though intelligent agents are supposed to improve human experience (or make it more efficient), it is hard from a human perspective to grasp the ethical values which are explicitly or implicitly embedded in an agent behaviour. This is the well-known problem of alignment, which refers to the challenge of designing AI systems that align with human values, goals and preferences. This problem is particularly challenging since most human ethical considerations refer to \emph{incommensurable} (i.e. non-measurable and/or incomparable) values and criteria. Consider, for instance, a medical agent prescribing a treatment to a cancerous patient. How could it take into account (and/or weigh) incommensurable aspects like the value of a human life and the cost of the treatment? Now, the alignment between human and artificial values is possible only if we define a common space where a metric can be defined and used. This paper proposes to extend to ethics the conventional Anything2vec approach, which has been successful in plenty of similar and hard-to-quantify domains (ranging from natural language processing to recommendation systems and graph analysis). This paper proposes a way to map an automatic agent decision-making (or control law) strategy to a multivariate vector representation, which can be used to compare and assess the alignment with human values. The Ethics2Vec method is first introduced in the case of an automatic agent performing binary decision-making. Then, a vectorisation of an automatic control law (like in the case of a self-driving car) is discussed to show how the approach can be extended to automatic control settings.
- Abstract(参考訳): 知的エージェントは、人間の経験を改善する(あるいはより効率的にする)ことが求められるが、エージェントの振る舞いに明示的にまたは暗黙的に埋め込まれた倫理的価値を理解することは、人間の観点からは困難である。
これはアライメントのよく知られた問題であり、人間の価値観や目標、好みに合わせたAIシステムを設計する上での課題である。
この問題は、多くの人間の倫理的考察が「emph{incommensurable}」(測定不能または/または比較不能)の値と基準を言及しているため、特に困難である。
例えば、がん患者に治療を処方する医療エージェントを考える。
人間の命の価値や治療費など、不測の側面をどう考慮すればいいのでしょうか?
現在、人間と人工の値のアライメントは、メートル法を定義し、使用することができる共通の空間を定義する場合にのみ可能である。
本稿では, 自然言語処理からレコメンデーションシステム, グラフ解析まで, 類似した, 難易度の高い領域で成功を収めた従来のAnything2vecアプローチを倫理的に拡張することを提案する。
本稿では,自動エージェント決定(あるいは制御法則)戦略を多変量ベクトル表現にマッピングする方法を提案する。
Ethics2Vec法は、自動エージェントがバイナリ決定を行う場合に最初に導入される。
次に、自動制御法(自動運転車の場合のように)のベクトル化を議論し、そのアプローチが自動制御設定にどのように拡張できるかを示す。
関連論文リスト
- The Ultimate Test of Superintelligent AI Agents: Can an AI Balance Care and Control in Asymmetric Relationships? [11.29688025465972]
シェパードテストは、超知能人工エージェントの道徳的および関係的な次元を評価するための新しい概念テストである。
私たちは、AIが知的エージェントを操作、育む、そして機器的に使用しない能力を示すときに、重要な、潜在的に危険な、知能のしきい値を越えることを主張する。
これには、自己利益と従属エージェントの幸福の間の道徳的なトレードオフを評価する能力が含まれる。
論文 参考訳(メタデータ) (2025-06-02T15:53:56Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment [2.619545850602691]
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。
我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。
我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
論文 参考訳(メタデータ) (2024-06-06T16:31:22Z) - Measuring Value Alignment [12.696227679697493]
本稿では,AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。
このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
論文 参考訳(メタデータ) (2023-12-23T12:30:06Z) - Learning Human-like Representations to Enable Learning Human Values [11.236150405125754]
我々は,人間とAIエージェントの表現的アライメントが人的価値の学習に与える影響を考察する。
このような表現的アライメントは、パーソナライゼーションの文脈において、人間の価値を安全に学習し、探索する上で有効であることを示す。
論文 参考訳(メタデータ) (2023-12-21T18:31:33Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - A Case for Humans-in-the-Loop: Decisions in the Presence of Erroneous
Algorithmic Scores [85.12096045419686]
本研究では,児童虐待のホットラインスクリーニング決定を支援するアルゴリズムツールの採用について検討した。
まず、ツールがデプロイされたときに人間が行動を変えることを示します。
表示されたスコアが誤ったリスク推定である場合、人間はマシンの推奨に従わない可能性が低いことを示す。
論文 参考訳(メタデータ) (2020-02-19T07:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。