論文の概要: Beyond Outcome-Based Imperfect-Recall: Higher-Resolution Abstractions for Imperfect-Information Games
- arxiv url: http://arxiv.org/abs/2510.15094v1
- Date: Thu, 16 Oct 2025 19:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.366858
- Title: Beyond Outcome-Based Imperfect-Recall: Higher-Resolution Abstractions for Imperfect-Information Games
- Title(参考訳): アウトカムベース不完全なリコールを超えて:不完全な情報ゲームのための高解法抽象化
- Authors: Yanchang Fu, Qiyue Yin, Shengda Liu, Pei Xu, Kaiqi Huang,
- Abstract要約: ハンド抽象化はテキサスホールドエムのような不完全な情報ゲーム(IIG)のスケーリングに不可欠である。
プレイヤーアクションシーケンスから信号をきれいに分離する'em-styleゲームを保持するように調整されたIIGのサブクラスである信号観測順序ゲーム(SOOGs)を紹介する。
本稿では,主要な結果に基づく不完全なリコールアルゴリズムが,歴史的情報を任意に破棄することで,かなりの損失を被ることを示す。
- 参考スコア(独自算出の注目度): 26.872387657059775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand abstraction is crucial for scaling imperfect-information games (IIGs) such as Texas Hold'em, yet progress is limited by the lack of a formal task model and by evaluations that require resource-intensive strategy solving. We introduce signal observation ordered games (SOOGs), a subclass of IIGs tailored to hold'em-style games that cleanly separates signal from player action sequences, providing a precise mathematical foundation for hand abstraction. Within this framework, we define a resolution bound-an information-theoretic upper bound on achievable performance under a given signal abstraction. Using the bound, we show that mainstream outcome-based imperfect-recall algorithms suffer substantial losses by arbitrarily discarding historical information; we formalize this behavior via potential-aware outcome Isomorphism (PAOI) and prove that PAOI characterizes their resolution bound. To overcome this limitation, we propose full-recall outcome isomorphism (FROI), which integrates historical information to raise the bound and improve policy quality. Experiments on hold'em-style benchmarks confirm that FROI consistently outperforms outcome-based imperfect-recall baselines. Our results provide a unified formal treatment of hand abstraction and practical guidance for designing higher-resolution abstractions in IIGs.
- Abstract(参考訳): テキサスホールデムのような不完全な情報ゲーム(IIG)のスケーリングには手作業の抽象化が不可欠であるが、正式なタスクモデルが欠如していることや、リソース集約型の戦略解決を必要とする評価によって進展が制限されている。
我々は,手動抽象の正確な数学的基礎を提供するために,信号と手動のアクションシーケンスをきれいに分離する'em-styleゲームを保持するように調整されたIIGのサブクラスである信号観測順序ゲーム(SOOGs)を紹介する。
この枠組みでは、与えられた信号抽象化の下で達成可能な性能に対する情報理論上界の分解能を定義する。
このバウンダリを用いて、従来の情報を任意に破棄することで、主要な結果に基づく不完全なリコールアルゴリズムが重大な損失を被ることを示す。
この制限を克服するため,歴史情報を統合して政策品質を高めるフルリコール結果同型(FROI)を提案する。
hold'emスタイルのベンチマークの実験では、FROIが結果ベースの不完全なリコールベースラインを一貫して上回っていることが確認されている。
本結果は,IIGの高分解能抽象化を設計するための手作業抽象化と実践的ガイダンスを統一的に扱うものである。
関連論文リスト
- Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - A General Method to Incorporate Spatial Information into Loss Functions for GAN-based Super-resolution Models [25.69505971220203]
GAN(Generative Adversarial Networks)は超解像問題において優れた性能を示した。
GANは、予期せぬアーチファクトやノイズなど、出力に副作用をもたらすことが多い。
本稿では,多くのGANベース超解像(SR)モデルにおいて,トレーニングプロセスに必須空間情報を導入することで,効果的に活用できる汎用手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:29:16Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - Hierarchical State Abstraction Based on Structural Information
Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-24T11:06:52Z) - Unsupervised Seismic Footprint Removal With Physical Prior Augmented
Deep Autoencoder [11.303407992331213]
本稿では、獲得したフットプリントの教師なし抑制のためのフットプリント除去ネットワーク(FR-Netと呼ばれる)を提案する。
FR-Netの鍵となるのは、ノイズの本質的な指向性に応じてフットプリント獲得のための一方向全変動(UTV)モデルを設計することである。
論文 参考訳(メタデータ) (2023-02-08T07:46:28Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Loss Bounds for Approximate Influence-Based Abstraction [81.13024471616417]
影響に基づく抽象化は、システムの残りの部分が与える「影響」とともに、局所的なサブプロブレムをモデル化することでレバレッジを得ることを目的としている。
本稿では,理論的観点から,そのような手法の性能について考察する。
交叉エントロピーで訓練されたニューラルネットワークは、近似的な影響表現を学習するのに適していることを示す。
論文 参考訳(メタデータ) (2020-11-03T15:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。