論文の概要: Configurable Mirror Descent: Towards a Unification of Decision Making
- arxiv url: http://arxiv.org/abs/2405.11746v1
- Date: Mon, 20 May 2024 03:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 14:23:32.359925
- Title: Configurable Mirror Descent: Towards a Unification of Decision Making
- Title(参考訳): 構成可能なミラーダイス : 意思決定の統一を目指して
- Authors: Pengdeng Li, Shuxin Li, Chang Yang, Xinrun Wang, Shuyue Hu, Xiao Huang, Hau Chan, Bo An,
- Abstract要約: 特定の意思決定問題に対処する様々な方法が提案されている。
特定のカテゴリーでの成功にもかかわらず、これらの手法は通常独立して進化し、他のカテゴリに一般化することができない。
本研究は,3つの主要なコントリビューションでこの問題に対処するための予備的試みを示す。
- 参考スコア(独自算出の注目度): 36.42770584314967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision-making problems, categorized as single-agent, e.g., Atari, cooperative multi-agent, e.g., Hanabi, competitive multi-agent, e.g., Hold'em poker, and mixed cooperative and competitive, e.g., football, are ubiquitous in the real world. Various methods are proposed to address the specific decision-making problems. Despite the successes in specific categories, these methods typically evolve independently and cannot generalize to other categories. Therefore, a fundamental question for decision-making is: \emph{Can we develop \textbf{a single algorithm} to tackle \textbf{ALL} categories of decision-making problems?} There are several main challenges to address this question: i) different decision-making categories involve different numbers of agents and different relationships between agents, ii) different categories have different solution concepts and evaluation measures, and iii) there lacks a comprehensive benchmark covering all the categories. This work presents a preliminary attempt to address the question with three main contributions. i) We propose the generalized mirror descent (GMD), a generalization of MD variants, which considers multiple historical policies and works with a broader class of Bregman divergences. ii) We propose the configurable mirror descent (CMD) where a meta-controller is introduced to dynamically adjust the hyper-parameters in GMD conditional on the evaluation measures. iii) We construct the \textsc{GameBench} with 15 academic-friendly games across different decision-making categories. Extensive experiments demonstrate that CMD achieves empirically competitive or better outcomes compared to baselines while providing the capability of exploring diverse dimensions of decision making.
- Abstract(参考訳): 意思決定問題は、単一エージェント、eg、Atari、協力型マルチエージェント、eg、ハナビ、競争型マルチエージェント、eg、ホールドエムポーカー、複合型協調型および競争型(eg、サッカー)に分類される。
特定の意思決定問題に対処する様々な方法が提案されている。
特定のカテゴリーでの成功にもかかわらず、これらの手法は通常独立して進化し、他のカテゴリに一般化することができない。
したがって、意思決定の根本的な問題は次の通りである。 \emph{Can we developed \textbf{a single algorithm} to tackle \textbf{ALL} categories of decision-making problem?
この問題に対処する主な課題がいくつかある。
一 異なる意思決定のカテゴリーは、異なるエージェントの数及び異なるエージェント間の関係を含む。
二 異なるカテゴリーが異なる解決概念及び評価措置を有すること。
三 すべてのカテゴリをカバーする包括的なベンチマークがないこと。
本研究は,3つの主要なコントリビューションでこの問題に対処するための予備的試みを示す。
i) MD変種を一般化した一般化ミラー降下法(GMD)を提案する。
二 メタコントローラを導入し、評価基準に基づいてGMD条件のハイパーパラメータを動的に調整する構成可能なミラー降下(CMD)を提案する。
iii) 異なる意思決定カテゴリにまたがる15の学術的フレンドリーなゲームを用いて, \textsc{GameBench} を構築した。
大規模な実験では、CMDはベースラインよりも経験的に競争力があり、より良い結果が得られる一方で、多様な意思決定の次元を探索する能力を提供している。
関連論文リスト
- Navigating Trade-offs: Policy Summarization for Multi-Objective Reinforcement Learning [10.848218400641466]
多目的強化学習(MORL)は、複数の目的を含む問題を解決するために用いられる。
本稿では,MORL が生成する解集合をクラスタリングする手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T15:26:38Z) - Differentiating Choices via Commonality for Multiple-Choice Question Answering [54.04315943420376]
複数選択の質問応答は、正しい答えを選択するための貴重な手がかりを提供することができる。
既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。
本稿では,DCQAと呼ばれる共通性を識別・排除することで,選択を識別する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-08-21T12:05:21Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Mixture of Experts for Biomedical Question Answering [34.92691831878302]
そこで我々はMOEBQAと呼ばれるMixture-of-Expert (MoE)ベースの質問応答手法を提案する。
MoEBQAはスパースルーティングによって異なるタイプの質問の計算を分離する。
実検に基づいて構築した3つのバイオメディカル質問応答(BQA)データセットのMOEBQAを評価する。
論文 参考訳(メタデータ) (2022-04-15T14:11:40Z) - Unifying Behavioral and Response Diversity for Open-ended Learning in
Zero-sum Games [44.30509625560908]
オープンエンド学習アルゴリズムでは、多様性の定義が広く受け入れられておらず、多様なポリシーの構築と評価が困難である。
行動多様性(BD)と反応多様性(RD)の両方に基づくマルチエージェントオープンエンド学習における多様性の統一尺度を提案する。
現在,多くの多様性対策が,BDやRDのカテゴリの1つに該当するが,両方ではないことを示す。
この統一された多様性尺度を用いて、オープンエンド学習における最良の応答を求める際に、対応する多様性促進目標と人口効果度を設計する。
論文 参考訳(メタデータ) (2021-06-09T10:11:06Z) - Continuous Mean-Covariance Bandits [39.820490484375156]
本稿では,選択肢相関を考慮した連続平均共分散帯域モデルを提案する。
CMCBでは、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。
最適な後悔(対数的因子を含む)を伴う新しいアルゴリズムを提案し、それらの最適性を検証するために一致した下界を提供する。
論文 参考訳(メタデータ) (2021-02-24T06:37:05Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。