論文の概要: Barriers and Pathways to Human-AI Alignment: A Game-Theoretic Approach
- arxiv url: http://arxiv.org/abs/2502.05934v1
- Date: Sun, 09 Feb 2025 15:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:20.660375
- Title: Barriers and Pathways to Human-AI Alignment: A Game-Theoretic Approach
- Title(参考訳): 人間-AIアライメントへの障壁と道--ゲーム理論的アプローチ
- Authors: Aran Nayebi,
- Abstract要約: より少ない仮定で事前アライメントアプローチを一般化するゲーム理論フレームワークを導入する。
我々は、$M$の目的と$N$のエージェント間のアライメントの計算複雑性を分析する。
私たちは、アライメントをより実現可能にする条件を特定することで結論付けます。
- 参考スコア(独自算出の注目度): 2.6451153531057985
- License:
- Abstract: Under what conditions can capable AI agents efficiently align their actions with human preferences? More specifically, when they are proficient enough to collaborate with us, how long does coordination take, and when is it computationally feasible? These foundational questions of AI alignment help define what makes an AI agent ``sufficiently safe'' and valuable to humans. Since such generally capable systems do not yet exist, a theoretical analysis is needed to establish when guarantees hold -- and what they even are. We introduce a game-theoretic framework that generalizes prior alignment approaches with fewer assumptions, allowing us to analyze the computational complexity of alignment across $M$ objectives and $N$ agents, providing both upper and lower bounds. Unlike previous work, which often assumes common priors, idealized communication, or implicit tractability, our framework formally characterizes the difficulty of alignment under minimal assumptions. Our main result shows that even when agents are fully rational and computationally \emph{unbounded}, alignment can be achieved with high probability in time \emph{linear} in the task space size. Therefore, in real-world settings, where task spaces are often \emph{exponential} in input length, this remains impractical. More strikingly, our lower bound demonstrates that alignment is \emph{impossible} to speed up when scaling to exponentially many tasks or agents, highlighting a fundamental computational barrier to scalable alignment. Relaxing these idealized assumptions, we study \emph{computationally bounded} agents with noisy messages (representing obfuscated intent), showing that while alignment can still succeed with high probability, it incurs additional \emph{exponential} slowdowns in the task space size, number of agents, and number of tasks. We conclude by identifying conditions that make alignment more feasible.
- Abstract(参考訳): 有能なAIエージェントは、どのような条件下で、行動と人間の好みを効率的に調整できるのか?
より具体的に言えば、私たちが協力できるほど熟練しているとき、コーディネーションに要する時間はどれくらいで、いつから計算可能か?
これらのAIアライメントに関する基本的な疑問は、AIエージェントが『十分安全』であり、人間にとって価値のあるものとなるものを定義するのに役立ちます。
このような一般的な能力を持つシステムはまだ存在しないため、保証が保留されているとき、そしてそれらが何であるかを確立するには理論的な分析が必要である。
より少ない仮定で事前アライメントアプローチを一般化するゲーム理論フレームワークを導入し、M$の目的と$N$のエージェントにまたがるアライメントの計算複雑性を分析し、上界と下界の両方を提供する。
一般的な前提や理想的なコミュニケーション、暗黙的なトラクタビリティを前提とする従来の作業とは異なり、我々のフレームワークは最小限の仮定の下でのアライメントの難しさを公式に特徴付ける。
我々の主な結果は、エージェントが完全に有理で計算的に \emph{unbounded} である場合でも、タスク空間サイズにおける時間 \emph{linear} のアライメントは高い確率で達成できることを示している。
したがって、実世界の環境では、タスク空間が入力長で「emph{exponential}」である場合、これは実用的ではない。
より印象的なことに、我々の下限は、アライメントが指数関数的に多くのタスクやエージェントにスケールする際のスピードアップであり、拡張性のあるアライメントに対する基本的な計算障壁を強調していることを示している。
これらの理想化された仮定を緩和し、ノイズのあるメッセージ(難解な意図を表す)を持つ \emph{computationally bounded} エージェントを調査し、アライメントは高い確率で成功するが、タスク空間サイズ、エージェント数、タスク数にさらに \emph{exponential} のスローダウンを引き起こすことを示す。
私たちは、アライメントをより実現可能にする条件を特定することで結論付けます。
関連論文リスト
- Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment [2.619545850602691]
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。
我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。
我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
論文 参考訳(メタデータ) (2024-06-06T16:31:22Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Taming AI Bots: Controllability of Neural States in Large Language
Models [81.1573516550699]
まず、分析に適する「意味の形式的定義」を導入する。
そして、大きな言語モデル(LLM)が視覚的に訓練される意味のあるデータ」を特徴付ける。
意味の空間に制限された場合、AIボットは制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-29T03:58:33Z) - Low-rank Optimal Transport: Approximation, Statistics and Debiasing [51.50788603386766]
フロゼットボン2021ローランで提唱された低ランク最適輸送(LOT)アプローチ
LOTは興味のある性質と比較した場合、エントロピー正則化の正当な候補と見なされる。
本稿では,これらの領域のそれぞれを対象とし,計算OTにおける低ランクアプローチの影響を補強する。
論文 参考訳(メタデータ) (2022-05-24T20:51:37Z) - Prioritized SIPP for Multi-Agent Path Finding With Kinematic Constraints [0.0]
MAPF(Multi-Agent Path Finding)は、ロボティクスと人工知能における長年の問題である。
この問題をある程度緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-08-11T10:42:11Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - Fast Decomposition of Temporal Logic Specifications for Heterogeneous
Teams [1.856334276134661]
我々は,大規模なマルチエージェントパス計画問題を,独立して解決・実行可能なより小さなサブプロブレムに分解することに注力する。
エージェントのミッションは、信号時間論理の断片であるCaTL(Capability Temporal Logic)公式として与えられる。
私たちが取っているアプローチは、時間論理仕様とエージェントのチームの両方を分解することです。
論文 参考訳(メタデータ) (2020-09-30T18:04:39Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。