論文の概要: AI Alignment at Your Discretion
- arxiv url: http://arxiv.org/abs/2502.10441v1
- Date: Mon, 10 Feb 2025 09:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 03:23:12.477614
- Title: AI Alignment at Your Discretion
- Title(参考訳): あなたの判断におけるAIアライメント
- Authors: Maarten Buyl, Hadi Khalaf, Claudio Mayrink Verdun, Lucas Monteiro Paes, Caio C. Vieira Machado, Flavio du Pin Calmon,
- Abstract要約: AIアライメントでは、人間かアルゴリズムのいずれかのアノテータに対して、どのモデル出力がより良いか、より安全かを判断するために、緯度を付与しなければならない」。
このような判断はほとんど検討されていないままであり、(i)アノテータは任意に判断の力を利用することができ、(ii)モデルはこの判断を模倣することができない。
安全アライメントデータセットに対する人間とアルゴリズムの両方の裁量を測定することで、これまで考慮されていなかったアライメントプロセスにおける裁量層を明らかにする。
- 参考スコア(独自算出の注目度): 7.133218044328296
- License:
- Abstract: In AI alignment, extensive latitude must be granted to annotators, either human or algorithmic, to judge which model outputs are `better' or `safer.' We refer to this latitude as alignment discretion. Such discretion remains largely unexamined, posing two risks: (i) annotators may use their power of discretion arbitrarily, and (ii) models may fail to mimic this discretion. To study this phenomenon, we draw on legal concepts of discretion that structure how decision-making authority is conferred and exercised, particularly in cases where principles conflict or their application is unclear or irrelevant. Extended to AI alignment, discretion is required when alignment principles and rules are (inevitably) conflicting or indecisive. We present a set of metrics to systematically analyze when and how discretion in AI alignment is exercised, such that both risks (i) and (ii) can be observed. Moreover, we distinguish between human and algorithmic discretion and analyze the discrepancy between them. By measuring both human and algorithmic discretion over safety alignment datasets, we reveal layers of discretion in the alignment process that were previously unaccounted for. Furthermore, we demonstrate how algorithms trained on these datasets develop their own forms of discretion in interpreting and applying these principles, which challenges the purpose of having any principles at all. Our paper presents the first step towards formalizing this core gap in current alignment processes, and we call on the community to further scrutinize and control alignment discretion.
- Abstract(参考訳): AIアライメントでは、モデル出力が‘better’または‘safer’であるかを判断するために、人間かアルゴリズムのいずれかのアノテータに広範な緯度を付与する必要がある。
「この緯度をアライメントの裁量という。」
このような裁量はほとんど検討されていないままであり、2つのリスクを生じさせる。
一 アノテーターは、その裁量力を任意に利用することができる。
(ii)モデルは、この判断を模倣しないかもしれない。
この現象を研究するためには、特に原則の矛盾や適用が不明確あるいは無関係な場合において、意思決定権限の付与と行使の仕組みを規定する判断の法的概念を踏襲する。
AIアライメントの拡張により、アライメントの原則やルールが(必然的に)矛盾している、あるいは決定不能な場合には、判断が必要になります。
我々は、AIアライメントにおける意思決定の時期と方法を体系的に分析する一連の指標を提示する。
(i)および
(ii)が観察できる。
さらに,人間とアルゴリズムの区別を行い,両者の相違を解析する。
安全アライメントデータセットに対する人間とアルゴリズムの両方の裁量を測定することで、これまで考慮されていなかったアライメントプロセスにおける裁量層を明らかにする。
さらに、これらのデータセットでトレーニングされたアルゴリズムが、これらの原則の解釈と適用において、独自の判断方法を開発する方法を示す。
本稿は、現在のアライメントプロセスにおけるこのコアギャップの形式化に向けた第一歩として、アライメントの判断をさらに精査し、制御するようにコミュニティに呼びかける。
関連論文リスト
- Beyond Preferences in AI Alignment [15.878773061188516]
我々は、AIアライメントに対する優先主義的アプローチを特徴づけ、挑戦する。
人間の価値観の濃厚なセマンティックな内容が、嗜好がどのように捉えられていないかを示す。
我々は、AIシステムは、彼らの社会的役割に適した規範的基準に適合すべきであると主張する。
論文 参考訳(メタデータ) (2024-08-30T03:14:20Z) - Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Rethinking Algorithmic Fairness for Human-AI Collaboration [29.334511328067777]
アルゴリズムフェアネスに対する既存のアプローチは、人間の意思決定者がアルゴリズムに完全に従えば、公平な結果を確保することを目的としている。
我々は、独立して公平で、コンプライアンスが不当に公正で、人間のポリシーよりも正確であるアルゴリズムレコメンデーションを設計することは不可能であることを示した。
論文 参考訳(メタデータ) (2023-10-05T16:21:42Z) - Fairness in Matching under Uncertainty [78.39459690570531]
アルゴリズム的な二面市場は、こうした設定における公平性の問題に注意を向けている。
我々は、利益の不確実性を尊重する両面の市場設定において、個々人の公正性の概念を公理化する。
そこで我々は,配当よりも公平なユーティリティ最大化分布を求めるために,線形プログラミングフレームワークを設計する。
論文 参考訳(メタデータ) (2023-02-08T00:30:32Z) - Beyond Incompatibility: Trade-offs between Mutually Exclusive Fairness Criteria in Machine Learning and Law [2.959308758321417]
本稿では,3つのフェアネス基準を連続的に補間する新しいアルゴリズム(FAir Interpolation Method: FAIM)を提案する。
我々は,合成データ,CompASデータセット,電子商取引部門による新たな実世界のデータセットに適用した場合のアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2022-12-01T12:47:54Z) - Algorithmic Assistance with Recommendation-Dependent Preferences [2.864550757598007]
選択に影響を及ぼすアルゴリズムレコメンデーションの効果と設計について考察する。
我々は、レコメンデーションに依存した選好が、意思決定者がレコメンデーションに過度に反応する非効率性を生み出すことを示す。
論文 参考訳(メタデータ) (2022-08-16T09:24:47Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z) - Randomized Classifiers vs Human Decision-Makers: Trustworthy AI May Have
to Act Randomly and Society Seems to Accept This [0.8889304968879161]
我々は、人的決定に似て、人工エージェントの判断は必然的に道徳的な原則に根ざすべきであると感じている。
しかし、意思決定者が真に倫理的(倫理的理論に基づく)かつ公正(公平性の概念による)な決定を行うことができるのは、決定を根拠とするすべての関連する要因に関する完全な情報が意思決定時に利用可能である場合のみである。
論文 参考訳(メタデータ) (2021-11-15T05:39:02Z) - Coordinated Reasoning for Cross-Lingual Knowledge Graph Alignment [74.0482641714311]
本稿では,2つのコーディネート推論手法,すなわち Easy-to-Hardデコード戦略とジョイントエンティティアライメントアルゴリズムを導入する。
我々のモデルは最先端の性能を実現し,提案手法は既存のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2020-01-23T18:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。