論文の概要: Information Compression and Performance Evaluation of Tic-Tac-Toe's
Evaluation Function Using Singular Value Decomposition
- arxiv url: http://arxiv.org/abs/2207.02449v2
- Date: Thu, 7 Jul 2022 12:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 10:57:28.437556
- Title: Information Compression and Performance Evaluation of Tic-Tac-Toe's
Evaluation Function Using Singular Value Decomposition
- Title(参考訳): 特異値分解を用いたtic-tac-toe評価関数の情報圧縮と性能評価
- Authors: Naoya Fujita and Hiroshi Watanabe
- Abstract要約: 我々は特異値分解(SVD)によるゲームTic-Tac-Toeの評価関数を近似した。
その結果,性能を著しく低下させることなく,評価関数の情報量を70%削減できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We approximated the evaluation function for the game Tic-Tac-Toe by singular
value decomposition (SVD) and investigated the effect of approximation accuracy
on winning rate. We first prepared the perfect evaluation function of
Tic-Tac-Toe and performed low-rank approximation by considering the evaluation
function as a ninth-order tensor. We found that we can reduce the amount of
information of the evaluation function by 70% without significantly degrading
the performance. Approximation accuracy and winning rate were strongly
correlated but not perfectly proportional. We also investigated how the
decomposition method of the evaluation function affects the performance. We
considered two decomposition methods: simple SVD regarding the evaluation
function as a matrix and the Tucker decomposition by higher-order SVD (HOSVD).
At the same compression ratio, the strategy with the approximated evaluation
function obtained by HOSVD exhibited a significantly higher winning rate than
that obtained by SVD. These results suggest that SVD can effectively compress
board game strategies and an optimal compression method that depends on the
game exists.
- Abstract(参考訳): ゲームTic-Tac-Toeの評価関数を特異値分解(SVD)により近似し,近似精度が勝利率に及ぼす影響を検討した。
まず,tic-tac-toeの完全評価関数を作成し,評価関数を9次テンソルとして低ランク近似を行った。
その結果,性能を著しく低下させることなく,評価関数の情報量を70%削減できることがわかった。
近似精度と勝利率の相関は強かったが,完全な比例は得られなかった。
また,評価関数の分解方法が性能に与える影響についても検討した。
評価関数を行列とする単純なSVDと,高次SVD(HOSVD)によるタッカー分解の2つの方法を検討した。
同じ圧縮比で,HOSVDで得られた近似評価関数を用いた戦略は,SVDで得られた戦略よりも有意に高い勝利率を示した。
これらの結果から,svdはボードゲーム戦略を効果的に圧縮でき,ゲームに依存する最適な圧縮方法が存在することが示唆された。
関連論文リスト
- Tensor Decomposition with Unaligned Observations [4.970364068620608]
アンアラインな観測モードは、再生カーネルヒルベルト空間(RKHS)の関数を用いて表現される
本稿では,2値型,整数値型,正値型など,データの種類を効果的に説明できる多元的損失関数を提案する。
また、$ell$ロス関数を使用する際の効率向上のためにスケッチアルゴリズムも導入された。
論文 参考訳(メタデータ) (2024-10-17T21:39:18Z) - Efficient adjustment for complex covariates: Gaining efficiency with
DOPE [56.537164957672715]
共変量によって表現される情報のサブセットを調整可能なフレームワークを提案する。
理論的な結果に基づいて,平均処理効果(ATE)の効率的な評価を目的とした,デバイアスドアウトカム適応確率推定器(DOPE)を提案する。
その結果,DOPE は様々な観測環境において ATE 推定のための効率的かつ堅牢な手法を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-20T13:02:51Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Accelerating Policy Gradient by Estimating Value Function from Prior
Computation in Deep Reinforcement Learning [16.999444076456268]
そこで本研究では,事前計算を用いて値関数を推定し,オンライン政策勾配法におけるサンプル効率を向上する方法について検討する。
特に,対象タスクに対する新しい値関数を事前の値推定と組み合わせて学習する。
結果の値関数は、ポリシー勾配法におけるベースラインとして使用される。
論文 参考訳(メタデータ) (2023-02-02T20:23:22Z) - Closing the gap between SVRG and TD-SVRG with Gradient Splitting [17.071971639540976]
時間差(TD)学習は、分散還元法により性能を向上できる強化学習における政策評価である。
最近の研究は、TD学習の解釈を、適切に選択された関数の勾配の分割として利用し、アルゴリズムを簡素化し、SVRGとTDを融合させる。
本研究の主な成果は,1/8ドルの学習率を持つ幾何学的収束であり,凸条件下でSVRGが利用できる収束値と同一である。
論文 参考訳(メタデータ) (2022-11-29T14:21:34Z) - Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。
この課題に対処するための新しいクロスバリデーションのような方法論を提供する。
本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文 参考訳(メタデータ) (2021-12-14T17:53:01Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-06T08:03:45Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Sparse Perturbations for Improved Convergence in Stochastic Zeroth-Order
Optimization [10.907491258280608]
ゼロオーダー(SZO)手法への関心は最近、深いニューラルネットワークに対する敵対的ブラックボックス攻撃のようなブラックボックス最適化シナリオで復活している。
SZO法は、ランダムな入力ポイントで目的関数を評価する能力のみを必要とする。
本稿では,ランダム摂動の次元依存性を低減させるSZO最適化手法を提案する。
論文 参考訳(メタデータ) (2020-06-02T16:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。