論文の概要: Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment
- arxiv url: http://arxiv.org/abs/2406.04231v3
- Date: Mon, 16 Dec 2024 19:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:19.193649
- Title: Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment
- Title(参考訳): エージェント間のミス・アライメントの定量化--アライメントの社会技術的理解に向けて
- Authors: Aidan Kierans, Avijit Ghosh, Hananel Hazan, Shiri Dori-Hacohen,
- Abstract要約: 最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。
我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。
我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
- 参考スコア(独自算出の注目度): 2.619545850602691
- License:
- Abstract: Existing work on the alignment problem has focused mainly on (1) qualitative descriptions of the alignment problem; (2) attempting to align AI actions with human interests by focusing on value specification and learning; and/or (3) focusing on a single agent or on humanity as a monolith. Recent sociotechnical approaches highlight the need to understand complex misalignment among multiple human and AI agents. We address this gap by adapting a computational social science model of human contention to the alignment problem. Our model quantifies misalignment in large, diverse agent groups with potentially conflicting goals across various problem areas. Misalignment scores in our framework depend on the observed agent population, the domain in question, and conflict between agents' weighted preferences. Through simulations, we demonstrate how our model captures intuitive aspects of misalignment across different scenarios. We then apply our model to two case studies, including an autonomous vehicle setting, showcasing its practical utility. Our approach offers enhanced explanatory power for complex sociotechnical environments and could inform the design of more aligned AI systems in real-world applications.
- Abstract(参考訳): アライメント問題に関する既存の研究は,(1)アライメント問題の質的な記述,(2)バリュー仕様と学習に焦点をあてて,AI行動と人間の利害関係の整合を図ること,(3)単一エージェントやモノリスとしての人間性に焦点を当てることに集中している。
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。
我々は、人間の競合の計算社会科学モデルをアライメント問題に適応させることにより、このギャップに対処する。
本モデルでは,様々な問題領域にまたがる潜在的に相反する目標を持つ多種多様なエージェント群におけるミスアライメントの定量化を行う。
我々の枠組みにおけるミスアライメントスコアは、観察されたエージェントの人口、問題領域、およびエージェントの重み付けされた嗜好の対立に依存する。
シミュレーションを通じて、我々のモデルは、異なるシナリオをまたいで、直感的な調整の側面を捉えているかを実証する。
そして、私たちのモデルを、自動運転車の設定を含む2つのケーススタディに適用し、その実用性を示します。
我々のアプローチは、複雑な社会技術環境に対する説明力を高め、現実世界のアプリケーションにおいてより整合したAIシステムの設計を通知する。
関連論文リスト
- Aligning AI Agents via Information-Directed Sampling [20.617552198581024]
バンドアライメントの問題は、環境と人間と相互作用することで、長期にわたる期待される報酬を最大化することである。
本研究では,これらのトレードオフを,Beta-Bernoulli banditに類似した玩具帯状アライメント問題において理論的,実証的に検討する。
我々は、現在の慣行を反映した単純な探索アルゴリズムと、トンプソンサンプリングのような有望なアルゴリズムの両方が、この問題に対する許容できる解決策を提供していないことを実証する。
論文 参考訳(メタデータ) (2024-10-18T18:23:41Z) - Problem Solving Through Human-AI Preference-Based Cooperation [74.39233146428492]
我々は,人間-AI共同構築フレームワークであるHAI-Co2を提案する。
我々は、HAI-Co2を形式化し、それが直面する困難なオープンリサーチ問題について議論する。
本稿では,HAI-Co2のケーススタディと,モノリシックな生成型AIモデルとの比較による有効性を示す。
論文 参考訳(メタデータ) (2024-08-14T11:06:57Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent
Problems in AI Alignment using Large-Language Models [0.0]
我々は,GPTモデルが主エージェント間の衝突に対してどのように反応するかを検討する。
GPT-3.5とGPT-4の両方をベースとしたエージェントが,簡単なオンラインショッピングタスクで主目的をオーバーライドすることがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:19:15Z) - Causal Fairness Analysis [68.12191782657437]
意思決定設定における公平性の問題を理解し、モデル化し、潜在的に解決するためのフレームワークを導入します。
我々のアプローチの主な洞察は、観測データに存在する格差の定量化と、基礎となる、しばしば観測されていない、因果的なメカニズムの収集を結びつけることである。
本研究は,文献中の異なる基準間の関係を整理し,説明するための最初の体系的試みであるフェアネスマップにおいて,本研究の成果を左右するものである。
論文 参考訳(メタデータ) (2022-07-23T01:06:34Z) - Aligned with Whom? Direct and social goals for AI systems [0.0]
この記事では、どの目標を検討するかによって、2種類のアライメント問題を区別する。
直接的なアライメント問題は、AIシステムがそれを操作するエンティティの目標を達成するかどうかを考慮する。
社会アライメント問題は、より大きなグループや社会に対するAIシステムの影響をより広く考慮している。
論文 参考訳(メタデータ) (2022-05-09T13:49:47Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。