論文の概要: Emergent Alignment via Competition
- arxiv url: http://arxiv.org/abs/2509.15090v1
- Date: Thu, 18 Sep 2025 15:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.31234
- Title: Emergent Alignment via Competition
- Title(参考訳): 競争による創発的アライメント
- Authors: Natalie Collina, Surbhi Goel, Aaron Roth, Emily Ryu, Mirah Shi,
- Abstract要約: 人間のユーザが複数のミスアライメントAIエージェントと対話する戦略的な環境について検討する。
私たちの重要な洞察は、ユーザユーティリティがエージェントユーティリティの凸内にある場合、戦略的競争は、完全に整合したモデルと相互作用する結果に匹敵する結果をもたらすことができるということです。
- 参考スコア(独自算出の注目度): 18.339481054128694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning AI systems with human values remains a fundamental challenge, but does our inability to create perfectly aligned models preclude obtaining the benefits of alignment? We study a strategic setting where a human user interacts with multiple differently misaligned AI agents, none of which are individually well-aligned. Our key insight is that when the users utility lies approximately within the convex hull of the agents utilities, a condition that becomes easier to satisfy as model diversity increases, strategic competition can yield outcomes comparable to interacting with a perfectly aligned model. We model this as a multi-leader Stackelberg game, extending Bayesian persuasion to multi-round conversations between differently informed parties, and prove three results: (1) when perfect alignment would allow the user to learn her Bayes-optimal action, she can also do so in all equilibria under the convex hull condition (2) under weaker assumptions requiring only approximate utility learning, a non-strategic user employing quantal response achieves near-optimal utility in all equilibria and (3) when the user selects the best single AI after an evaluation period, equilibrium guarantees remain near-optimal without further distributional assumptions. We complement the theory with two sets of experiments.
- Abstract(参考訳): 人間の価値を持つAIシステムのアラインメントは依然として根本的な課題ですが、完全に整合したモデルを作成することができないため、アラインメントのメリットが得られないのでしょうか?
人間のユーザが複数の異なる不整合AIエージェントと対話する戦略的な状況について検討する。
我々の重要な洞察は、ユーザユーティリティがエージェントユーティリティの凸内ほぼ内にあるとき、モデルの多様性が増大するにつれて満足しやすくなる条件が、戦略的競争によって完全に整合したモデルと相互作用する結果に匹敵する結果が得られるということである。
我々はこれをマルチリーダーのStackelbergゲームとしてモデル化し、ベイズ的説得を異なる関係者間のマルチラウンドの会話にまで拡張し、3つの結果を証明している。(1) 完全整合によってユーザーがベイズ最適行動を学ぶことができれば、凸船体条件下での全ての平衡でもそのようにすることができる(2) 近似的ユーティリティ学習のみを必要とする弱い仮定の下で、量子的応答を利用する非定常的ユーザは、評価期間の後に最高のAIを選択すると、均衡保証はより分散的な仮定なしでほぼ最適となる。
我々はこの理論を2つの実験で補完する。
関連論文リスト
- From Individual to Multi-Agent Algorithmic Recourse: Minimizing the Welfare Gap via Capacitated Bipartite Matching [9.37591403853433]
本稿では,マルチエージェント・アルゴリズム・リコースのための新しいフレームワークを提案する。
我々のフレームワークは,システム設定に最小限の修正を加えて,多対多のアルゴリズムでほぼ最適の福祉を実現することができる。
論文 参考訳(メタデータ) (2025-08-14T21:04:24Z) - Steerable Pluralism: Pluralistic Alignment via Few-Shot Comparative Regression [9.624392327607833]
大規模言語モデル(LLM)は現在、人間のフィードバックから強化学習のような技術を用いて調整されている。
本稿では,個々のユーザの好みに適応可能な,少数ショット比較回帰に基づく評価可能な多元性モデルを提案する。
論文 参考訳(メタデータ) (2025-08-11T22:40:31Z) - Competitive Algorithms for Multi-Agent Ski-Rental Problems [35.95355517827071]
本稿では,従来のスキーレンタルジレンマをグループ設定に一般化する,新しいマルチエージェントスキーレンタル問題を提案する。
我々のモデルでは、各エージェントは固定された日代でレンタルするか、個別のコストでパスを購入することができる。
我々はエージェントのアクティブな時代が異なり、エージェントが意思決定プロセスから抜け出すと動的状態につながるシナリオを考察する。
論文 参考訳(メタデータ) (2025-07-21T15:36:34Z) - Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees [91.88803125231189]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の好みを合わせることに成功している。
DPOのような一般的な手法は高い性能を示してきたが、彼らは言語モデルとの相互作用を帯域幅の問題として捉えている。
本稿では,アライメント問題を2プレイヤー定数マルコフゲームとしてモデル化することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-02-18T09:33:48Z) - Emulating Full Participation: An Effective and Fair Client Selection Strategy for Federated Learning [50.060154488277036]
連合学習では、クライアントの選択はモデルの性能と公平性の両方に大きな影響を及ぼす重要な問題である。
2つの指標間の固有の対立に対処し、互いに強化する2つの原則を提案する。
提案手法は,データ分布に基づいてクライアントを選択することにより,この多様性を適応的に向上させ,モデル性能と公平性の両方を改善する。
論文 参考訳(メタデータ) (2024-05-22T12:27:24Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。