論文の概要: Efficiently Training Neural Networks for Imperfect Information Games by Sampling Information Sets
- arxiv url: http://arxiv.org/abs/2407.05876v1
- Date: Mon, 8 Jul 2024 12:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:50:25.647882
- Title: Efficiently Training Neural Networks for Imperfect Information Games by Sampling Information Sets
- Title(参考訳): 情報集合のサンプリングによる不完全な情報ゲームのためのニューラルネットワークの学習
- Authors: Timo Bertram, Johannes Fürnkranz, Martin Müller,
- Abstract要約: そこで本研究では,学習サンプル間で完全情報ゲーム評価の予算を分配して,リターンを最大化する方法について検討する。
実験の結果, 少数の状態のサンプリングは, 比較的少数の状態のサンプリングよりも, 比較的多数の異なる位置のサンプリングが望ましいことがわかった。
- 参考スコア(独自算出の注目度): 4.336779198334903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In imperfect information games, the evaluation of a game state not only depends on the observable world but also relies on hidden parts of the environment. As accessing the obstructed information trivialises state evaluations, one approach to tackle such problems is to estimate the value of the imperfect state as a combination of all states in the information set, i.e., all possible states that are consistent with the current imperfect information. In this work, the goal is to learn a function that maps from the imperfect game information state to its expected value. However, constructing a perfect training set, i.e. an enumeration of the whole information set for numerous imperfect states, is often infeasible. To compute the expected values for an imperfect information game like \textit{Reconnaissance Blind Chess}, one would need to evaluate thousands of chess positions just to obtain the training target for a single state. Still, the expected value of a state can already be approximated with appropriate accuracy from a much smaller set of evaluations. Thus, in this paper, we empirically investigate how a budget of perfect information game evaluations should be distributed among training samples to maximise the return. Our results show that sampling a small number of states, in our experiments roughly 3, for a larger number of separate positions is preferable over repeatedly sampling a smaller quantity of states. Thus, we find that in our case, the quantity of different samples seems to be more important than higher target quality.
- Abstract(参考訳): 不完全な情報ゲームでは、ゲーム状態の評価は観測可能な世界だけでなく、環境の隠れた部分にも依存する。
妨害された情報にアクセスすると、状態評価を自明にするので、そのような問題に対処する一つの方法は、情報集合内の全ての状態、すなわち現在の不完全情報と整合した全ての状態の組合せとして不完全状態の値を推定することである。
本研究の目的は,不完全なゲーム情報状態から期待値にマップする関数を学習することである。
しかし、完全なトレーニングセット、すなわち多くの不完全な状態のために設定された情報の列挙を構築することは、しばしば不可能である。
textit{Reconnaissance Blind Chess}のような不完全な情報ゲームの期待値を計算するには、単一の状態のトレーニングターゲットを得るためには、何千ものチェスの位置を評価する必要がある。
それでも、状態の期待値は、はるかに小さな評価セットから、適切な精度で既に近似することができる。
そこで,本稿では,学習サンプル間で完全情報ゲーム評価の予算を分配してリターンを最大化する方法を実証的に検討する。
実験の結果, 少数の状態のサンプリングは, 比較的少数の状態のサンプリングよりも, 比較的多数の異なる位置のサンプリングが望ましいことがわかった。
したがって,本例では,より高い目標品質よりも,異なるサンプルの量の方が重要であることが判明した。
関連論文リスト
- Neural Network-based Information Set Weighting for Playing Reconnaissance Blind Chess [4.336779198334903]
不完全な情報ゲームでは、ゲーム状態は一般にプレイヤーにとって完全に観察できない。
我々は、歴史ゲームデータから設定した情報において、各状態の確率を推定する2つの異なるニューラルネットワークを訓練する。
実験により、シームズニューラルネットワークはより精度が高く、与えられたドメインに対する古典的な畳み込みニューラルネットワークよりも効率的であることが判明した。
論文 参考訳(メタデータ) (2024-07-08T12:29:29Z) - CNN-based Game State Detection for a Foosball Table [1.612440288407791]
フォスボールのゲームでは、コンパクトで包括的なゲーム状態の記述は、フィギュアの位置シフトと回転と、時間とともにボールの位置で構成される。
本稿では,フォスボールのゲーム状態を決定するフィギュア検出システムについて述べる。
このデータセットを使用して、畳み込みニューラルネットワーク(CNN)ベースのエンドツーエンド回帰モデルをトレーニングし、各ロッドの回転とシフトを予測する。
論文 参考訳(メタデータ) (2024-04-08T09:48:02Z) - Visual processing in context of reinforcement learning [0.0]
この論文では、従来のRLアルゴリズムが使用するデータソースの異なるサブセットにアクセス可能な3つの異なる表現学習アルゴリズムを紹介している。
RL問題解決パイプラインに教師なし表現学習を含めれば、学習を高速化できると結論付けている。
論文 参考訳(メタデータ) (2022-08-26T09:30:51Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Estimating informativeness of samples with Smooth Unique Information [108.25192785062367]
サンプルが最終的な重みを知らせる量と、重みによって計算される関数を知らせる量を測定します。
線形化ネットワークを用いてこれらの量の効率的な近似を行う。
本稿では,データセットの要約など,いくつかの問題に適用する。
論文 参考訳(メタデータ) (2021-01-17T10:29:29Z) - When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文 参考訳(メタデータ) (2020-12-11T15:25:14Z) - A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context [52.67844649650687]
本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T14:35:37Z) - JHU-CROWD++: Large-Scale Crowd Counting Dataset and A Benchmark Method [92.15895515035795]
我々は、"4,372"イメージと"1.51万"アノテーションを含む、新しい大規模非制約クラウドカウントデータセット(JHU-CROWD++)を導入する。
本稿では, 残差誤差推定により, 群集密度マップを段階的に生成する新しい群集カウントネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T14:59:35Z) - Towards Using Count-level Weak Supervision for Crowd Counting [55.58468947486247]
本稿では,少数の位置レベルのアノテーション(十分に教師された)と大量のカウントレベルのアノテーション(弱教師付き)からモデルを学習する,弱教師付き群集カウントの問題について検討する。
我々は、生成した密度マップの自由を制限するための正規化を構築するために、単純なyet効果のトレーニング戦略、すなわちMultiple Auxiliary Tasks Training (MATT)を考案した。
論文 参考訳(メタデータ) (2020-02-29T02:58:36Z) - On the consistency of supervised learning with missing values [15.666860186278782]
多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
本研究では,学習前の平均値など,一定値が得られない場合に一定であることを示す。
論文 参考訳(メタデータ) (2019-02-19T07:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。