論文の概要: On the Convergence of Bounded Agents
- arxiv url: http://arxiv.org/abs/2307.11044v1
- Date: Thu, 20 Jul 2023 17:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 11:48:00.125558
- Title: On the Convergence of Bounded Agents
- Title(参考訳): 有界エージェントの収束について
- Authors: David Abel, Andr\'e Barreto, Hado van Hasselt, Benjamin Van Roy, Doina
Precup, Satinder Singh
- Abstract要約: 境界エージェントは、エージェントの将来の振る舞いを記述するために必要な最小の状態数が減少できない場合に収束する。
第2の見解では、エージェントの内部状態が変更された場合にのみ、エージェントのパフォーマンスが変化するときのみ、境界エージェントが収束した。
- 参考スコア(独自算出の注目度): 80.67035535522777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When has an agent converged? Standard models of the reinforcement learning
problem give rise to a straightforward definition of convergence: An agent
converges when its behavior or performance in each environment state stops
changing. However, as we shift the focus of our learning problem from the
environment's state to the agent's state, the concept of an agent's convergence
becomes significantly less clear. In this paper, we propose two complementary
accounts of agent convergence in a framing of the reinforcement learning
problem that centers around bounded agents. The first view says that a bounded
agent has converged when the minimal number of states needed to describe the
agent's future behavior cannot decrease. The second view says that a bounded
agent has converged just when the agent's performance only changes if the
agent's internal state changes. We establish basic properties of these two
definitions, show that they accommodate typical views of convergence in
standard settings, and prove several facts about their nature and relationship.
We take these perspectives, definitions, and analysis to bring clarity to a
central idea of the field.
- Abstract(参考訳): エージェントがいつ収束したか?
強化学習問題の標準モデルは収束の直接的な定義をもたらす: エージェントがそれぞれの環境状態における振る舞いや性能が変化しなくなると収束する。
しかし,学習課題の焦点を環境状態からエージェントの状態へと移すにつれて,エージェントの収束の概念が著しく明確になる。
本稿では,有界エージェントを中心とした強化学習問題のフレーミングにおけるエージェント収束の相補的な2つの説明を提案する。
第一の見方では、有界エージェントは、エージェントの将来の振る舞いを記述するのに必要な最小の状態数が減少しないときに収束する。
第2のビューでは、エージェントの内部状態が変更された場合にのみ、エージェントのパフォーマンスが変化するときのみ、境界エージェントが収束したと述べる。
これらの2つの定義の基本的な性質を定め、標準設定における収束の典型的な見解を満たし、それらの性質と関係性に関するいくつかの事実を証明する。
これらの視点、定義、分析は、分野の中心的な考え方に明確性をもたらす。
関連論文リスト
- BET: Explaining Deep Reinforcement Learning through The Error-Prone
Decisions [7.139669387895207]
エージェントの振る舞いをよりよく説明するために,バックボーン抽出木(Backbone Extract Tree, BET)と呼ばれる新しい自己解釈構造を提案する。
高いレベルでは、BETはエージェントが一貫して一様決定を行う状態はエラーの妥当性を低下させるという仮説を立てている。
説明忠実度の観点から,既存の自己解釈モデルよりもBETの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-01-14T11:45:05Z) - Byzantine-Resilient Decentralized Multi-Armed Bandits [25.499420566469098]
エージェント間の情報混合ステップを不整合および極端な値の切り離しで融合するアルゴリズムを開発する。
このフレームワークは、コンピュータネットワークの攻撃者をモデル化したり、攻撃的なコンテンツをレコメンデーターシステムに攻撃したり、金融市場のマニピュレータとして利用することができる。
論文 参考訳(メタデータ) (2023-10-11T09:09:50Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Robust Allocations with Diversity Constraints [65.3799850959513]
エージェント値の積を最大化するナッシュ福祉規則は,多様性の制約が導入されたとき,一意にロバストな位置にあることを示す。
また, ナッシュ・ウェルズによる保証は, 広く研究されているアロケーション・ルールのクラスにおいて, ほぼ最適であることを示す。
論文 参考訳(メタデータ) (2021-09-30T11:09:31Z) - AgentFormer: Agent-Aware Transformers for Socio-Temporal Multi-Agent
Forecasting [25.151713845738335]
我々は、時間と社会的次元を共同でモデル化する新しいトランスフォーマー、AgentFormerを提案する。
エージェントフォーマに基づいて,任意のエージェントの特徴に任意の時間ステップで対応可能なマルチエージェント軌道予測モデルを提案する。
提案手法は,歩行者および自律運転用データセットにおける技術状況を大幅に改善する。
論文 参考訳(メタデータ) (2021-03-25T17:59:01Z) - A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context [52.67844649650687]
本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T14:35:37Z) - Performance of Bounded-Rational Agents With the Ability to Self-Modify [1.933681537640272]
複雑な環境に埋め込まれたエージェントの自己修飾は避けがたい。
インテリジェントエージェントは、将来のインスタンスが同じ目標に向かって機能するように、ユーティリティ機能の変更を避けるインセンティブを持っている、と論じられている。
この結果は有界な有理性を持つエージェントにはもはや当てはまらない。
論文 参考訳(メタデータ) (2020-11-12T09:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。