論文の概要: Quantifying Misalignment Between Agents
- arxiv url: http://arxiv.org/abs/2406.04231v1
- Date: Thu, 6 Jun 2024 16:31:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:59:57.813506
- Title: Quantifying Misalignment Between Agents
- Title(参考訳): エージェント間の相違の定量化
- Authors: Aidan Kierans, Avijit Ghosh, Hananel Hazan, Shiri Dori-Hacohen,
- Abstract要約: 近年,AIアライメント問題に対する懸念が高まっている。
我々は、観察されているエージェントの個体数によって、不一致がいかに異なるかを示す。
私たちのモデルは、価値仕様のアプローチから離れ、代わりにエージェントが実際に持っているような複雑な、インターロック、時には矛盾する目標に焦点を合わせています。
- 参考スコア(独自算出の注目度): 2.619545850602691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Growing concerns about the AI alignment problem have emerged in recent years, with previous work focusing mainly on (1) qualitative descriptions of the alignment problem; (2) attempting to align AI actions with human interests by focusing on value specification and learning; and/or (3) focusing on a single agent or on humanity as a singular unit. Recent work in sociotechnical AI alignment has made some progress in defining alignment inclusively, but the field as a whole still lacks a systematic understanding of how to specify, describe, and analyze misalignment among entities, which may include individual humans, AI agents, and complex compositional entities such as corporations, nation-states, and so forth. Previous work on controversy in computational social science offers a mathematical model of contention among populations (of humans). In this paper, we adapt this contention model to the alignment problem, and show how misalignment can vary depending on the population of agents (human or otherwise) being observed, the domain in question, and the agents' probability-weighted preferences between possible outcomes. Our model departs from value specification approaches and focuses instead on the morass of complex, interlocking, sometimes contradictory goals that agents may have in practice. We apply our model by analyzing several case studies ranging from social media moderation to autonomous vehicle behavior. By applying our model with appropriately representative value data, AI engineers can ensure that their systems learn values maximally aligned with diverse human interests.
- Abstract(参考訳): 近年,AIアライメント問題に対する懸念が高まり,(1)アライメント問題の質的な説明,(2)バリュー仕様と学習に焦点をあててAI行動と人間の利害関係を整合させようとする試み,(3)単一エージェントや単一ユニットとしての人間性に焦点を当てることを中心に,AIアライメント問題に対する懸念が高まっている。
社会技術的AIアライメントにおける最近の研究は、包括的にアライメントを定義することに多少進展しているが、全体としては、個々の人間、AIエージェント、企業、国家など複雑な構成エンティティを含むエンティティ間のミスアライメントの特定、記述、分析の方法に関する体系的な理解はいまだに欠けている。
計算社会科学における論争に関する以前の研究は、(人間の)人口間の競合の数学的モデルを提供する。
本稿では、この競合モデルをアライメント問題に適応させ、観察対象のエージェント(人間かその他のエージェント)の人口、被疑領域、および可能性のある結果間のエージェントの確率重み付け嗜好によって、どのように不一致が変化するかを示す。
私たちのモデルは、価値仕様のアプローチから離れ、代わりにエージェントが実際に持っているような複雑な、インターロック、時には矛盾する目標に焦点を合わせています。
我々は,ソーシャルメディアのモデレーションから自律走行車行動まで,いくつかのケーススタディを解析し,本モデルを適用した。
私たちのモデルに適切な代表的価値データを適用することで、AIエンジニアは、システムがさまざまな人間の関心事と最大限に一致した価値を学習できるようにします。
関連論文リスト
- Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Bias Mitigation via Compensation: A Reinforcement Learning Perspective [1.5442389863546546]
グループダイナミクスは、あるエージェント(例えば、AIシステム)が別のエージェント(例えば、人間)のバイアスとエラーを補う必要があるかもしれない。
ゲーム理論と強化学習原理を合成するアルゴリズム補償のための理論的枠組みを提供する。
この研究は、AIエージェントが他のエージェントのバイアスや行動に適応すべき条件の倫理的分析の基礎となる。
論文 参考訳(メタデータ) (2024-04-30T04:41:47Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - Goal Alignment: A Human-Aware Account of Value Alignment Problem [16.660807368368758]
バリューアライメント問題は、AIエージェントの指定された目的がそのユーザの真の目的と一致しないシナリオで発生する。
ミスアライメントの根本的な原因は、エージェントの行動とエージェントが特定の目的のために生成する振る舞いに対する人間の期待に固有の非対称性である。
本稿では,価値アライメントに関わるいくつかの中心的課題に焦点をあてた,ゴールアライメント(ゴールアライメント)という,バリューアライメント問題の新たな定式化を提案する。
論文 参考訳(メタデータ) (2023-02-02T01:18:57Z) - Aligned with Whom? Direct and social goals for AI systems [0.0]
この記事では、どの目標を検討するかによって、2種類のアライメント問題を区別する。
直接的なアライメント問題は、AIシステムがそれを操作するエンティティの目標を達成するかどうかを考慮する。
社会アライメント問題は、より大きなグループや社会に対するAIシステムの影響をより広く考慮している。
論文 参考訳(メタデータ) (2022-05-09T13:49:47Z) - Human-AI Collaboration via Conditional Delegation: A Case Study of
Content Moderation [47.102566259034326]
我々は,人間-AI協調のための代替パラダイムとして条件付きデリゲートを提案する。
我々は、条件付きデリゲートルールの作成において、人間を支援する新しいインタフェースを開発する。
本研究は,モデル性能向上における条件付きデリゲートの実現可能性を示す。
論文 参考訳(メタデータ) (2022-04-25T17:00:02Z) - A Mental-Model Centric Landscape of Human-AI Symbiosis [31.14516396625931]
我々は、GHAI(Generalized Human-Aware Interaction)と呼ばれる、ヒューマン・アウェア・AIインタラクション・スキームの極めて一般的なバージョンを導入する。
この新しいフレームワークによって、人間とAIのインタラクションの空間で達成されたさまざまな作業が捕捉され、これらの作業によって支えられる基本的な行動パターンが特定できるかどうかを確認します。
論文 参考訳(メタデータ) (2022-02-18T22:08:08Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。