論文の概要: Optimistic Temporal Difference Learning for 2048
- arxiv url: http://arxiv.org/abs/2111.11090v1
- Date: Mon, 22 Nov 2021 10:09:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 22:36:58.861395
- Title: Optimistic Temporal Difference Learning for 2048
- Title(参考訳): 2048年における最適時間差学習
- Authors: Hung Guei, Lung-Pin Chen, and I-Chen Wu
- Abstract要約: 多段階TD(MS-TD)学習や時間コヒーレンス(TC)学習など,時間差(TD)学習とその変種を2048年に応用した。
我々は,2048年の探索を促進するために,楽観的な初期化(OI)を採用し,学習の質が著しく向上していることを実証的に示す。
実験の結果,OIを用いたTDとTCの学習により,性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 4.404507236193031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal difference (TD) learning and its variants, such as multistage TD
(MS-TD) learning and temporal coherence (TC) learning, have been successfully
applied to 2048. These methods rely on the stochasticity of the environment of
2048 for exploration. In this paper, we propose to employ optimistic
initialization (OI) to encourage exploration for 2048, and empirically show
that the learning quality is significantly improved. This approach
optimistically initializes the feature weights to very large values. Since
weights tend to be reduced once the states are visited, agents tend to explore
those states which are unvisited or visited few times. Our experiments show
that both TD and TC learning with OI significantly improve the performance. As
a result, the network size required to achieve the same performance is
significantly reduced. With additional tunings such as expectimax search,
multistage learning, and tile-downgrading technique, our design achieves the
state-of-the-art performance, namely an average score of 625 377 and a rate of
72% reaching 32768 tiles. In addition, for sufficiently large tests, 65536
tiles are reached at a rate of 0.02%.
- Abstract(参考訳): 多段階TD(MS-TD)学習や時間コヒーレンス(TC)学習など,時間差(TD)学習とその変種を2048年に応用した。
これらの手法は、探査のための2048年の環境の確率性に依存している。
本稿では,2048年の探索を促すために,楽観的初期化(oi)を採用し,その学習品質が著しく向上していることを示す。
このアプローチは、特性重みを非常に大きな値に楽観的に初期化する。
州が訪問すると重量が減る傾向があるので、エージェントは訪問されていない状態や数回訪れた状態を探す傾向がある。
実験の結果,OIを用いたTDとTCの学習により,性能が大幅に向上した。
その結果、同じ性能を実現するために必要なネットワークサイズが大幅に削減される。
expectimax search, multistage learning, tile-downgrading techniqueなどの追加のチューニングにより, 平均スコア625 377, 72%が32768 タイルに達するという最先端のパフォーマンスを実現する。
さらに、十分に大きな試験では、65536個のタイルが0.02%の割合で到達する。
関連論文リスト
- Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models [80.65242356955231]
本稿では,推論時戦略の性能を直接最適化する手法により,モデルが微調整される,推論対応のファインチューニングパラダイムを提案する。
筆者らは,BoN内における困難で微分不可能なargmax演算子を克服し,BoN対応微調整のための最初の模倣学習と強化学習(RL)手法を考案した。
提案実験では,BoNを意識した微調整の有効性を,性能向上と推論時間計算の両面で実証した。
論文 参考訳(メタデータ) (2024-12-18T20:43:47Z) - MapTune: Advancing ASIC Technology Mapping via Reinforcement Learning Guided Library Tuning [11.92098711562615]
技術マッピングは論理回路をセルのライブラリーにマッピングする。
伝統的に、完全な技術ライブラリが使われており、巨大な検索スペースと潜在的なオーバーヘッドにつながっている。
本研究では,この課題に対処するMapTuneフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-25T15:18:47Z) - Unbiased Learning to Rank Meets Reality: Lessons from Baidu's Large-Scale Search Dataset [48.708591046906896]
Unbiased Learning-to-rank(ULTR)は、ユーザクリックから学習するための確立したフレームワークである。
Baidu-ULTRデータセットで利用可能な実験を再検討し、拡張する。
標準的な非バイアスの学習 to ランク技術は、クリック予測を堅牢に改善するが、ランク付け性能を一貫して改善するのに苦労している。
論文 参考訳(メタデータ) (2024-04-03T08:00:46Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Sub-Word Alignment Is Still Useful: A Vest-Pocket Method for Enhancing
Low-Resource Machine Translation [4.809907063232602]
我々は,親子間移動学習法を拡張するために,アライメントサブワード間の埋め込み重複を利用する。
我々は、My-En、Id-En、Tr-Enの翻訳シナリオのベンチマークデータセットで実験を行う。
論文 参考訳(メタデータ) (2022-05-09T06:44:24Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Contextualized Spatio-Temporal Contrastive Learning with
Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。
まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。
次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文 参考訳(メタデータ) (2021-12-09T19:13:41Z) - In Defense of the Learning Without Forgetting for Task Incremental
Learning [91.3755431537592]
破滅的な忘れは、継続的な学習システムへの道のりにおける大きな課題の1つだ。
本稿では, タスクインクリメンタルシナリオにおいて, 正しいアーキテクチャと標準的な拡張セットを併用して, LwF が得られた結果が最新のアルゴリズムを上回り, タスクインクリメンタルシナリオが実現されたことを示す。
論文 参考訳(メタデータ) (2021-07-26T16:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。