論文の概要: Quantifying Misalignment Between Agents
- arxiv url: http://arxiv.org/abs/2406.04231v1
- Date: Thu, 6 Jun 2024 16:31:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:59:57.813506
- Title: Quantifying Misalignment Between Agents
- Title(参考訳): エージェント間の相違の定量化
- Authors: Aidan Kierans, Avijit Ghosh, Hananel Hazan, Shiri Dori-Hacohen,
- Abstract要約: 近年,AIアライメント問題に対する懸念が高まっている。
我々は、観察されているエージェントの個体数によって、不一致がいかに異なるかを示す。
私たちのモデルは、価値仕様のアプローチから離れ、代わりにエージェントが実際に持っているような複雑な、インターロック、時には矛盾する目標に焦点を合わせています。
- 参考スコア(独自算出の注目度): 2.619545850602691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Growing concerns about the AI alignment problem have emerged in recent years, with previous work focusing mainly on (1) qualitative descriptions of the alignment problem; (2) attempting to align AI actions with human interests by focusing on value specification and learning; and/or (3) focusing on a single agent or on humanity as a singular unit. Recent work in sociotechnical AI alignment has made some progress in defining alignment inclusively, but the field as a whole still lacks a systematic understanding of how to specify, describe, and analyze misalignment among entities, which may include individual humans, AI agents, and complex compositional entities such as corporations, nation-states, and so forth. Previous work on controversy in computational social science offers a mathematical model of contention among populations (of humans). In this paper, we adapt this contention model to the alignment problem, and show how misalignment can vary depending on the population of agents (human or otherwise) being observed, the domain in question, and the agents' probability-weighted preferences between possible outcomes. Our model departs from value specification approaches and focuses instead on the morass of complex, interlocking, sometimes contradictory goals that agents may have in practice. We apply our model by analyzing several case studies ranging from social media moderation to autonomous vehicle behavior. By applying our model with appropriately representative value data, AI engineers can ensure that their systems learn values maximally aligned with diverse human interests.
- Abstract(参考訳): 近年,AIアライメント問題に対する懸念が高まり,(1)アライメント問題の質的な説明,(2)バリュー仕様と学習に焦点をあててAI行動と人間の利害関係を整合させようとする試み,(3)単一エージェントや単一ユニットとしての人間性に焦点を当てることを中心に,AIアライメント問題に対する懸念が高まっている。
社会技術的AIアライメントにおける最近の研究は、包括的にアライメントを定義することに多少進展しているが、全体としては、個々の人間、AIエージェント、企業、国家など複雑な構成エンティティを含むエンティティ間のミスアライメントの特定、記述、分析の方法に関する体系的な理解はいまだに欠けている。
計算社会科学における論争に関する以前の研究は、(人間の)人口間の競合の数学的モデルを提供する。
本稿では、この競合モデルをアライメント問題に適応させ、観察対象のエージェント(人間かその他のエージェント)の人口、被疑領域、および可能性のある結果間のエージェントの確率重み付け嗜好によって、どのように不一致が変化するかを示す。
私たちのモデルは、価値仕様のアプローチから離れ、代わりにエージェントが実際に持っているような複雑な、インターロック、時には矛盾する目標に焦点を合わせています。
我々は,ソーシャルメディアのモデレーションから自律走行車行動まで,いくつかのケーススタディを解析し,本モデルを適用した。
私たちのモデルに適切な代表的価値データを適用することで、AIエンジニアは、システムがさまざまな人間の関心事と最大限に一致した価値を学習できるようにします。
関連論文リスト
- Aligning AI Agents via Information-Directed Sampling [20.617552198581024]
バンドアライメントの問題は、環境と人間と相互作用することで、長期にわたる期待される報酬を最大化することである。
本研究では,これらのトレードオフを,Beta-Bernoulli banditに類似した玩具帯状アライメント問題において理論的,実証的に検討する。
我々は、現在の慣行を反映した単純な探索アルゴリズムと、トンプソンサンプリングのような有望なアルゴリズムの両方が、この問題に対する許容できる解決策を提供していないことを実証する。
論文 参考訳(メタデータ) (2024-10-18T18:23:41Z) - Problem Solving Through Human-AI Preference-Based Cooperation [74.39233146428492]
我々は,人間-AI共同構築フレームワークであるHAI-Co2を提案する。
我々は、HAI-Co2を形式化し、それが直面する困難なオープンリサーチ問題について議論する。
本稿では,HAI-Co2のケーススタディと,モノリシックな生成型AIモデルとの比較による有効性を示す。
論文 参考訳(メタデータ) (2024-08-14T11:06:57Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent
Problems in AI Alignment using Large-Language Models [0.0]
我々は,GPTモデルが主エージェント間の衝突に対してどのように反応するかを検討する。
GPT-3.5とGPT-4の両方をベースとしたエージェントが,簡単なオンラインショッピングタスクで主目的をオーバーライドすることがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:19:15Z) - Causal Fairness Analysis [68.12191782657437]
意思決定設定における公平性の問題を理解し、モデル化し、潜在的に解決するためのフレームワークを導入します。
我々のアプローチの主な洞察は、観測データに存在する格差の定量化と、基礎となる、しばしば観測されていない、因果的なメカニズムの収集を結びつけることである。
本研究は,文献中の異なる基準間の関係を整理し,説明するための最初の体系的試みであるフェアネスマップにおいて,本研究の成果を左右するものである。
論文 参考訳(メタデータ) (2022-07-23T01:06:34Z) - Aligned with Whom? Direct and social goals for AI systems [0.0]
この記事では、どの目標を検討するかによって、2種類のアライメント問題を区別する。
直接的なアライメント問題は、AIシステムがそれを操作するエンティティの目標を達成するかどうかを考慮する。
社会アライメント問題は、より大きなグループや社会に対するAIシステムの影響をより広く考慮している。
論文 参考訳(メタデータ) (2022-05-09T13:49:47Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。