論文の概要: A Revealed Preference Framework for AI Alignment
- arxiv url: http://arxiv.org/abs/2603.27868v1
- Date: Sun, 29 Mar 2026 20:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.150545
- Title: A Revealed Preference Framework for AI Alignment
- Title(参考訳): AIアライメントのためのRevealed Preference Framework
- Authors: Elchin Suleymanov,
- Abstract要約: AIは人間のプリンシパルの好みを実装しているのか、自分自身を追求しているのか?
AIの選択は、人間の好みとAIの好みを反映した2つのルールの混合である。
AIのアライメントは、人間とAIの両方の選択肢が観察される実験室の設定と、AIの選択のみが観察されるフィールド設定の2つの設定で総称的に識別できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human decision makers increasingly delegate choices to AI agents, raising a natural question: does the AI implement the human principal's preferences or pursue its own? To study this question using revealed preference techniques, I introduce the Luce Alignment Model, where the AI's choices are a mixture of two Luce rules, one reflecting the human's preferences and the other the AI's. I show that the AI's alignment (similarity of human and AI preferences) can be generically identified in two settings: the laboratory setting, where both human and AI choices are observed, and the field setting, where only AI choices are observed.
- Abstract(参考訳): AIは人間のプリンシパルの好みを実装しているのか、自分自身を追求しているのか?
ここでは、AIの選択は、人間の好みを反映した2つのルースルールと、AIの選択を混合したルースアライメントモデルを紹介する。
AIのアライメント(人間とAIの好みの類似性)は、実験室の設定(人間とAIの両方の選択肢が観察される)と、現場の設定(AIの選択のみが観察される)の2つの設定で一般的に識別できることを示します。
関連論文リスト
- Towards a Theory of AI Personhood [1.6317061277457001]
我々はAIの人格化に必要な条件を概説する。
もしAIシステムが人間と見なせるなら、AIアライメントの典型的な枠組みは不完全かもしれない。
論文 参考訳(メタデータ) (2025-01-23T10:31:26Z) - Aligning Generalisation Between Humans and Machines [74.120848518198]
AI技術は、科学的発見と意思決定において人間を支援することができるが、民主主義と個人を妨害することもある。
AIの責任ある使用と人間-AIチームへの参加は、AIアライメントの必要性をますます示している。
これらの相互作用の重要かつしばしば見落とされがちな側面は、人間と機械が一般化する異なる方法である。
論文 参考訳(メタデータ) (2024-11-23T18:36:07Z) - Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。
我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。
我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文 参考訳(メタデータ) (2024-07-30T21:34:04Z) - Position: Towards Bidirectional Human-AI Alignment [109.57781720848669]
我々は、人間とAIの双方向的・動的関係を説明するために、研究コミュニティは「調整」を明確に定義し、批判的に反映すべきであると主張する。
このフレームワークは、AIと人間の価値を整合させる従来の取り組みを取り入れているだけでなく、人間とAIを整合させるという、重要で未解明の次元も導入しています。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - The AI Alignment Paradox [10.674155943520729]
AIモデルを私たちの価値観と整合させるほど、敵がモデルを誤アライズするのが容易になるかもしれません。
AIの現実世界への影響が増大しているため、研究者の広いコミュニティがAIアライメントパラドックスを認識していることが不可欠である。
論文 参考訳(メタデータ) (2024-05-31T14:06:24Z) - Competent but Rigid: Identifying the Gap in Empowering AI to Participate
Equally in Group Decision-Making [25.913473823070863]
人間とAIの協調的な意思決定に関する既存の研究は、主にAIと個々の意思決定者との相互作用に焦点を当てている。
本稿では、2人の参加者と1人のAIが3つの英語エッセイをランク付けする委員会を結成するウィザード・オブ・オズ(Wizard-of-oz)研究について述べる。
論文 参考訳(メタデータ) (2023-02-17T11:07:17Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。