論文の概要: Aligning AI Agents via Information-Directed Sampling
- arxiv url: http://arxiv.org/abs/2410.14807v1
- Date: Fri, 18 Oct 2024 18:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:20.865952
- Title: Aligning AI Agents via Information-Directed Sampling
- Title(参考訳): 情報指向サンプリングによるAIエージェントの調整
- Authors: Hong Jun Jeon, Benjamin Van Roy,
- Abstract要約: バンドアライメントの問題は、環境と人間と相互作用することで、長期にわたる期待される報酬を最大化することである。
本研究では,これらのトレードオフを,Beta-Bernoulli banditに類似した玩具帯状アライメント問題において理論的,実証的に検討する。
我々は、現在の慣行を反映した単純な探索アルゴリズムと、トンプソンサンプリングのような有望なアルゴリズムの両方が、この問題に対する許容できる解決策を提供していないことを実証する。
- 参考スコア(独自算出の注目度): 20.617552198581024
- License:
- Abstract: The staggering feats of AI systems have brought to attention the topic of AI Alignment: aligning a "superintelligent" AI agent's actions with humanity's interests. Many existing frameworks/algorithms in alignment study the problem on a myopic horizon or study learning from human feedback in isolation, relying on the contrived assumption that the agent has already perfectly identified the environment. As a starting point to address these limitations, we define a class of bandit alignment problems as an extension of classic multi-armed bandit problems. A bandit alignment problem involves an agent tasked with maximizing long-run expected reward by interacting with an environment and a human, both involving details/preferences initially unknown to the agent. The reward of actions in the environment depends on both observed outcomes and human preferences. Furthermore, costs are associated with querying the human to learn preferences. Therefore, an effective agent ought to intelligently trade-off exploration (of the environment and human) and exploitation. We study these trade-offs theoretically and empirically in a toy bandit alignment problem which resembles the beta-Bernoulli bandit. We demonstrate while naive exploration algorithms which reflect current practices and even touted algorithms such as Thompson sampling both fail to provide acceptable solutions to this problem, information-directed sampling achieves favorable regret.
- Abstract(参考訳): AIシステムの停滞する偉業は、AIアライメントのトピック、すなわち「超知的な」AIエージェントの行動と人類の利益とを一致させることに注意を向けている。
既存のフレームワークやアルゴリズムは、エージェントが既に環境を完璧に特定しているという仮定に頼って、ミオピックの地平線上の問題や、人間のフィードバックから独立して学ぶことを研究している。
これらの制限に対処する出発点として、バンドアライメント問題を古典的なマルチアームバンディット問題の拡張として定義する。
ランディットアライメント問題は、環境と人間と相互作用することで、長期予想される報酬を最大化するエージェントが関与する。
環境における行動の報酬は、観察された結果と人間の嗜好の両方に依存する。
さらに、コストは人間の好みの学習に関係している。
したがって、効果的なエージェントは、(環境と人間の)知的にトレードオフされた探索と搾取をすべきである。
本研究では,これらのトレードオフを,Beta-Bernoulli banditに類似した玩具帯状アライメント問題において理論的,実証的に検討する。
我々は,現在の慣行を反映したナイーブな探索アルゴリズムやトンプソンサンプリングのような有望なアルゴリズムさえも,この問題に対する許容可能な解決策を提供していない一方で,情報指向サンプリングが好意的な後悔を実現することを実証する。
関連論文リスト
- Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment [2.619545850602691]
最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。
我々は、人間の競合の計算社会科学モデルをアライメント問題に適用する。
我々のモデルは、潜在的に矛盾する目標を持つ多種多様なエージェントグループにおけるミスアライメントを定量化する。
論文 参考訳(メタデータ) (2024-06-06T16:31:22Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Blessing from Human-AI Interaction: Super Reinforcement Learning in
Confounded Environments [19.944163846660498]
本稿では,データ駆動シーケンシャル意思決定に人間-AIインタラクションを活用する超強化学習のパラダイムを紹介する。
未測定のコンファウンディングを伴う意思決定プロセスでは、過去のエージェントによって取られたアクションは、未開示の情報に対する貴重な洞察を提供することができる。
我々は、いくつかの超政治学習アルゴリズムを開発し、その理論的性質を体系的に研究する。
論文 参考訳(メタデータ) (2022-09-29T16:03:07Z) - Emergence of Novelty in Evolutionary Algorithms [0.0]
迷路問題にアプローチを導入し,提案した解と比較する。
私たちのソリューションでは、パフォーマンスが大幅に向上すると同時に、はるかにシンプルであることに気付きました。
そこで我々は,この問題を一般化し,より高度なタスクセットであるAtari Gamesにアプローチを適用する。
論文 参考訳(メタデータ) (2022-06-27T13:49:41Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。