論文の概要: Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment
- arxiv url: http://arxiv.org/abs/2406.04231v2
- Date: Sat, 7 Sep 2024 19:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 02:11:38.434384
- Title: Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment
- Title(参考訳): エージェント間のミス・アライメントの定量化--アライメントの社会技術的理解に向けて
- Authors: Aidan Kierans, Avijit Ghosh, Hananel Hazan, Shiri Dori-Hacohen,
- Abstract要約: 最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。
我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。
我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
- 参考スコア(独自算出の注目度): 2.619545850602691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing work on the alignment problem has focused mainly on (1) qualitative descriptions of the alignment problem; (2) attempting to align AI actions with human interests by focusing on value specification and learning; and/or (3) focusing on a single agent or on humanity as a monolith. Recent sociotechnical approaches highlight the need to understand complex misalignment among multiple human and AI agents. We address this gap by adapting a computational social science model of human contention to the alignment problem. Our model quantifies misalignment in large, diverse agent groups with potentially conflicting goals across various problem areas. Misalignment scores in our framework depend on the observed agent population, the domain in question, and conflict between agents' weighted preferences. Through simulations, we demonstrate how our model captures intuitive aspects of misalignment across different scenarios. We then apply our model to two case studies, including an autonomous vehicle setting, showcasing its practical utility. Our approach offers enhanced explanatory power for complex sociotechnical environments and could inform the design of more aligned AI systems in real-world applications.
- Abstract(参考訳): アライメント問題に関する既存の研究は,(1)アライメント問題の質的な記述,(2)バリュー仕様と学習に焦点をあてて,AI行動と人間の利害関係の整合を図ること,(3)単一エージェントやモノリスとしての人間性に焦点を当てることに集中している。
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。
我々は、人間の競合の計算社会科学モデルをアライメント問題に適応させることにより、このギャップに対処する。
本モデルでは,様々な問題領域にまたがる潜在的に相反する目標を持つ多種多様なエージェント群におけるミスアライメントの定量化を行う。
我々の枠組みにおけるミスアライメントスコアは、観察されたエージェントの人口、問題領域、およびエージェントの重み付けされた嗜好の対立に依存する。
シミュレーションを通じて、我々のモデルは、異なるシナリオをまたいで、直感的な調整の側面を捉えているかを実証する。
そして、私たちのモデルを、自動運転車の設定を含む2つのケーススタディに適用し、その実用性を示します。
我々のアプローチは、複雑な社会技術環境に対する説明力を高め、現実世界のアプリケーションにおいてより整合したAIシステムの設計を通知する。
関連論文リスト
- Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Bias Mitigation via Compensation: A Reinforcement Learning Perspective [1.5442389863546546]
グループダイナミクスは、あるエージェント(例えば、AIシステム)が別のエージェント(例えば、人間)のバイアスとエラーを補う必要があるかもしれない。
ゲーム理論と強化学習原理を合成するアルゴリズム補償のための理論的枠組みを提供する。
この研究は、AIエージェントが他のエージェントのバイアスや行動に適応すべき条件の倫理的分析の基礎となる。
論文 参考訳(メタデータ) (2024-04-30T04:41:47Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Goal Alignment: A Human-Aware Account of Value Alignment Problem [16.660807368368758]
バリューアライメント問題は、AIエージェントの指定された目的がそのユーザの真の目的と一致しないシナリオで発生する。
ミスアライメントの根本的な原因は、エージェントの行動とエージェントが特定の目的のために生成する振る舞いに対する人間の期待に固有の非対称性である。
本稿では,価値アライメントに関わるいくつかの中心的課題に焦点をあてた,ゴールアライメント(ゴールアライメント)という,バリューアライメント問題の新たな定式化を提案する。
論文 参考訳(メタデータ) (2023-02-02T01:18:57Z) - Aligned with Whom? Direct and social goals for AI systems [0.0]
この記事では、どの目標を検討するかによって、2種類のアライメント問題を区別する。
直接的なアライメント問題は、AIシステムがそれを操作するエンティティの目標を達成するかどうかを考慮する。
社会アライメント問題は、より大きなグループや社会に対するAIシステムの影響をより広く考慮している。
論文 参考訳(メタデータ) (2022-05-09T13:49:47Z) - Human-AI Collaboration via Conditional Delegation: A Case Study of
Content Moderation [47.102566259034326]
我々は,人間-AI協調のための代替パラダイムとして条件付きデリゲートを提案する。
我々は、条件付きデリゲートルールの作成において、人間を支援する新しいインタフェースを開発する。
本研究は,モデル性能向上における条件付きデリゲートの実現可能性を示す。
論文 参考訳(メタデータ) (2022-04-25T17:00:02Z) - A Mental-Model Centric Landscape of Human-AI Symbiosis [31.14516396625931]
我々は、GHAI(Generalized Human-Aware Interaction)と呼ばれる、ヒューマン・アウェア・AIインタラクション・スキームの極めて一般的なバージョンを導入する。
この新しいフレームワークによって、人間とAIのインタラクションの空間で達成されたさまざまな作業が捕捉され、これらの作業によって支えられる基本的な行動パターンが特定できるかどうかを確認します。
論文 参考訳(メタデータ) (2022-02-18T22:08:08Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。