論文の概要: The Update Equivalence Framework for Decision-Time Planning
- arxiv url: http://arxiv.org/abs/2304.13138v1
- Date: Tue, 25 Apr 2023 20:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 16:35:02.842316
- Title: The Update Equivalence Framework for Decision-Time Planning
- Title(参考訳): 決定時間計画のための更新等価フレームワーク
- Authors: Samuel Sokota, Gabriele Farina, David J. Wu, Hengyuan Hu, Kevin A.
Wang, J. Zico Kolter, Noam Brown
- Abstract要約: 公的な情報に依存しない,原則的意思決定計画アルゴリズムを新たに導入する。
実験では、このファミリーのメンバーは、ハナビの最先端のアプローチと比較して、同等または優れた結果を生み出す。
- 参考スコア(独自算出の注目度): 95.09506009344315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The process of revising (or constructing) a policy immediately prior to
execution -- known as decision-time planning -- is key to achieving superhuman
performance in perfect-information settings like chess and Go. A recent line of
work has extended decision-time planning to more general imperfect-information
settings, leading to superhuman performance in poker. However, these methods
requires considering subgames whose sizes grow quickly in the amount of
non-public information, making them unhelpful when the amount of non-public
information is large. Motivated by this issue, we introduce an alternative
framework for decision-time planning that is not based on subgames but rather
on the notion of update equivalence. In this framework, decision-time planning
algorithms simulate updates of synchronous learning algorithms. This framework
enables us to introduce a new family of principled decision-time planning
algorithms that do not rely on public information, opening the door to sound
and effective decision-time planning in settings with large amounts of
non-public information. In experiments, members of this family produce
comparable or superior results compared to state-of-the-art approaches in
Hanabi and improve performance in 3x3 Abrupt Dark Hex and Phantom Tic-Tac-Toe.
- Abstract(参考訳): 実行直前にポリシーを修正(あるいは構築)するプロセス – 決定時間計画(decisive-time planning)と呼ばれる – は、チェスやゴーといった完璧な情報設定で超人的なパフォーマンスを達成する上でキーとなる。
最近の作業では、意思決定時間の計画をより一般的な不完全な情報設定に拡張し、ポーカーにおける超人的なパフォーマンスに繋がった。
しかし,これらの手法では,非公開情報の量が多い場合には,そのサイズが急速に大きくなるサブゲームを考える必要がある。
本稿では,サブゲームではなく,更新等価性の概念に基づく,意思決定時計画のための代替フレームワークを提案する。
このフレームワークでは、決定時間計画アルゴリズムが同期学習アルゴリズムの更新をシミュレートする。
この枠組みにより,公的な情報に依存しない意思決定時間計画手法を新たに導入し,非公的な情報量の多い設定において,健全かつ効果的な意思決定計画への扉を開くことができる。
実験では、このファミリーのメンバーは、ハナビの最先端のアプローチと同等または優れた結果を生成し、3x3のAbrupt Dark HexとPhantom Tic-Tac-Toeのパフォーマンスを改善した。
関連論文リスト
- Persuasion, Delegation, and Private Information in Algorithm-Assisted
Decisions [0.0]
プリンシパルは、バイナリ状態の公開観測可能な予測を生成するアルゴリズムを設計する。
彼女は、予測に基づいて直接行動するか、または、私的な情報を持つエージェントに決定を委譲するかを判断しなければならない。
このような環境における予測アルゴリズムとデリゲートルールの最適設計について検討する。
論文 参考訳(メタデータ) (2024-02-14T18:32:30Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Socio-cognitive Optimization of Time-delay Control Problems using
Evolutionary Metaheuristics [89.24951036534168]
メタヒューリスティックス(Metaheuristics)は、古典的なアプローチでは解決できない難解な問題を解くために使用される普遍的な最適化アルゴリズムである。
本稿では,キャストに基づく新しい社会認知メタヒューリスティックの構築を目標とし,このアルゴリズムのいくつかのバージョンを時間遅延システムモデルの最適化に適用する。
論文 参考訳(メタデータ) (2022-10-23T22:21:10Z) - Temporal Planning with Incomplete Knowledge and Perceptual Information [0.0]
本稿では,時間的計画枠組み内での緊急計画構築を組み合わせた新しい計画手法を提案する。
本研究では,不完全かつ(ii)知識認識行動をモデル化するために,計画ドメイン定義言語(PDDL)の小さな拡張を提案する。
また,様々な問題に対して優れた性能を示す新しい計画領域も導入した。
論文 参考訳(メタデータ) (2022-07-20T07:26:08Z) - Understanding Decision-Time vs. Background Planning in Model-Based
Reinforcement Learning [56.50123642237106]
一般的な2つのアプローチは、意思決定時計画とバックグラウンド計画である。
本研究は、これらの2つの計画スタイルのうちの1つが、どの条件で、どの設定が他の方法よりも優れているかを理解することに関心がある。
全体としては、意思決定時計画は、古典的インスタンス化において、背景計画と同等に動作しないが、現代のインスタンス化では、背景計画よりも同等かそれ以上に実行可能であることを示唆している。
論文 参考訳(メタデータ) (2022-06-16T20:48:19Z) - Bayesian Non-stationary Linear Bandits for Large-Scale Recommender
Systems [6.009759445555003]
この問題に対処するために,線形コンテキスト多重武装バンディットフレームワークを構築した。
本研究では,高次元特徴ベクトルを用いた線形帯域問題に対する意思決定ポリシーを開発する。
提案するリコメンデータシステムは,実行環境を最小化しながら,ユーザの項目嗜好をオンラインで学習する。
論文 参考訳(メタデータ) (2022-02-07T13:51:19Z) - Efficient Belief Space Planning in High-Dimensional State Spaces using
PIVOT: Predictive Incremental Variable Ordering Tactic [11.878820609988693]
我々は,不確実性の下でのオンライン意思決定の問題点を考察し,信頼空間における計画として定式化する。
このアプローチを PIVOT: Predictive Incremental Variable Ordering Tactic と呼ぶ。
この戦術を適用することで、状態推論の効率も向上する。
論文 参考訳(メタデータ) (2021-12-29T07:30:47Z) - Metalearning Linear Bandits by Prior Update [7.519872646378836]
完全なベイズ的アプローチは、問題のパラメータは既知の事前から生成されると仮定するが、実際にはそのような情報は欠落することが多い。
この問題は、ある部分的な情報を持つ意思決定設定において悪化し、不特定事前の使用は、探索の質が悪く、性能が劣る可能性がある。
この研究において、線形帯域幅とガウス事前の文脈において、事前推定が真の事前に十分近い限り、不特定事前を用いたアルゴリズムの性能は真の先行を用いたアルゴリズムのそれに近いことを証明した。
論文 参考訳(メタデータ) (2021-07-12T11:17:01Z) - Bandit Linear Optimization for Sequential Decision Making and
Extensive-Form Games [102.23975166536326]
tree-form sequential decision making (tfsdm) は、エージェントと潜在的に敵対的な環境の間のツリー形式の相互作用をモデル化することで、古典的なワンショット意思決定を拡張する。
これは、各プレイヤーが幅広い形式のゲームで直面するオンライン意思決定問題、およびマルコフ決定プロセス、およびエージェントが観測された履歴を条件とする部分観察可能なマルコフ決定プロセスをキャプチャする。
本稿では, (i) 線形時間損失と (ii) $o(sqrtt)$ cumulative regret の両方を提供する拡張dmのバンディット線形最適化問題に対する最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T05:00:13Z) - CoreDiag: Eliminating Redundancy in Constraint Sets [68.8204255655161]
最小コア(最小非冗長制約集合)の決定に利用できる新しいアルゴリズムを提案する。
このアルゴリズムは、冗長性の度合いが高い分散知識工学シナリオにおいて特に有用である。
本手法の適用可能性を示すために, 商業的構成知識ベースを用いた実証的研究を実施した。
論文 参考訳(メタデータ) (2021-02-24T09:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。