論文の概要: Ordinal Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2101.10670v1
- Date: Tue, 26 Jan 2021 10:01:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 11:29:59.784474
- Title: Ordinal Monte Carlo Tree Search
- Title(参考訳): モンテカルロ ツリー検索します。
- Authors: Tobias Joppen and Johannes F\"urnkranz
- Abstract要約: 多くの問題設定、特にゲームプレイでは、エージェントはアクションに対しておそらく遅延した報酬を受け取る。
単純な端末のみの報酬でさえ、勝利が1に等しく、負けが1に等しく、偏見のない文とは見なされない。
本稿では、MDPを解くための一般的なアルゴリズムであるMCTSを調べ、報酬の順序付け処理がこの問題を克服することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many problem settings, most notably in game playing, an agent receives a
possibly delayed reward for its actions. Often, those rewards are handcrafted
and not naturally given. Even simple terminal-only rewards, like winning equals
one and losing equals minus one, can not be seen as an unbiased statement,
since these values are chosen arbitrarily, and the behavior of the learner may
change with different encodings. It is hard to argue about good rewards and the
performance of an agent often depends on the design of the reward signal. In
particular, in domains where states by nature only have an ordinal ranking and
where meaningful distance information between game state values is not
available, a numerical reward signal is necessarily biased. In this paper we
take a look at MCTS, a popular algorithm to solve MDPs, highlight a reoccurring
problem concerning its use of rewards, and show that an ordinal treatment of
the rewards overcomes this problem. Using the General Video Game Playing
framework we show dominance of our newly proposed ordinal MCTS algorithm over
other MCTS variants, based on a novel bandit algorithm that we also introduce
and test versus UCB.
- Abstract(参考訳): 多くの問題設定、特にゲームプレイでは、エージェントはアクションに対しておそらく遅延した報酬を受け取る。
多くの場合、報酬は手作りであり、自然に与えられるものではない。
これらの値が任意に選択され、学習者の振る舞いが異なるエンコーディングで変わるため、勝利が1つで損失がマイナス1個であるような単純な端末のみの報酬でさえも、偏りのないステートメントとは見なせない。
良い報酬について論じることは困難であり、エージェントのパフォーマンスは報酬信号の設計に依存することが多い。
特に、自然界の状態が序列ランキングのみを持ち、ゲーム状態値間の有意義な距離情報が得られない領域では、数値報酬信号が必ずバイアスされる。
本稿では,MDP を解くアルゴリズムである MCTS について考察し,報酬の利用に関する再帰的な問題を強調し,報奨の順序的処理がこの問題を克服することを示す。
汎用的なゲームプレイフレームワークを用いて,提案手法が提案するordinal mctsアルゴリズムが,新たなbanditアルゴリズムに基づいて他のmcts変種よりも優位であることを示す。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Bayesian Inverse Reinforcement Learning for Non-Markovian Rewards [7.2933135237680595]
逆強化学習(IRL)は、専門家の行動から報酬関数を推定する問題である。
報酬関数は非マルコフ的であり、報酬機械(RM)のような現在の状態以上のものに依存する。
本稿では,専門家の行動からRMを直接推定するためのベイズIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T04:41:54Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Bandits Meet Mechanism Design to Combat Clickbait in Online
Recommendation [50.469872635246176]
我々は,マルチアームバンディット問題の戦略的変種について検討し,これを戦略的クリックバンディット(Click-bandit)と呼ぶ。
このモデルは、推奨項目の選択がクリックスルー率とクリック後の報酬の両方に依存するオンラインレコメンデーションのアプリケーションによって動機付けられている。
論文 参考訳(メタデータ) (2023-11-27T09:19:01Z) - Optimal Cooperative Multiplayer Learning Bandits with Noisy Rewards and
No Communication [0.0]
我々は,プレイヤーが事前に戦略に合意することのみを許される,協調的なマルチプレイヤーバンディット学習問題を考える。
この問題では、各プレイヤーが同時にアクションを選択する。
我々は,このアルゴリズムが対数的$O(fraclog TDelta_bma)$(gap依存)後悔および$O(sqrtTlog T)$(gap非依存)後悔を達成することを示す。
論文 参考訳(メタデータ) (2023-11-10T17:55:44Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - The price of unfairness in linear bandits with biased feedback [62.25313751895011]
線形帯域フィードバックによる逐次意思決定の問題点について検討する。
その結果,不偏フィードバック下で得られたdT 1/2 log(T) の後悔率よりも最悪の後悔率が高いことがわかった。
興味深いことに、ギャップ依存率によって、問題はバイアスのないものほど難しくない非自明なインスタンスの存在が明らかになる。
論文 参考訳(メタデータ) (2022-03-18T08:03:20Z) - Online Learning for Cooperative Multi-Player Multi-Armed Bandits [7.527034429851578]
複数の協力者によるマルチアームバンディット(MAB)のための分散オンライン学習フレームワークを提案する。
各ラウンドのプレイヤーが獲得した報酬は、すべてのプレイヤーが獲得した行動に依存する。
プレイヤーの行動が観察できない場合の行動情報非対称性と、他のプレイヤーの行動が観測可能であるが、受信された報酬が同一分布のIDである場合の報酬情報非対称性とを考察する。
論文 参考訳(メタデータ) (2021-09-07T18:18:58Z) - Simplified Belief-Dependent Reward MCTS Planning with Guaranteed Tree
Consistency [11.688030627514532]
部分的に観測可能なマルコフ決定プロセス(POMDP)は解決が難しいことで知られている。
ほとんどの最先端のオンライン問題解決者はモンテカルロ木探索(MCTS)のアイデアを活用している。
本稿では,情報理論的な報奨を考慮したMCTSアルゴリズムの新たな変種を提案する。
論文 参考訳(メタデータ) (2021-05-29T07:25:11Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。