論文の概要: AI Agents for the Dhumbal Card Game: A Comparative Study
- arxiv url: http://arxiv.org/abs/2510.11736v1
- Date: Fri, 10 Oct 2025 10:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.017943
- Title: AI Agents for the Dhumbal Card Game: A Comparative Study
- Title(参考訳): ダンバルカードゲームのためのAIエージェント:比較研究
- Authors: Sahaj Raj Malla,
- Abstract要約: 本研究では,文化的に重要なマルチプレイヤーカードゲームであるDhumbalに対する人工知能(AI)エージェントの評価を行った。
我々はダンバルの力学を形式化し、アプローチ(攻撃的、保守的、均衡的、機会主義的)を含む多様なエージェントを実装する。
パフォーマンスは、勝利率、経済的成果、Jhyapの成功、ラウンド毎に捨てられたカード、リスク評価、意思決定効率によって測定される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates Artificial Intelligence (AI) agents for Dhumbal, a culturally significant multiplayer card game with imperfect information, through a systematic comparison of rule-based, search-based, and learning-based strategies. We formalize Dhumbal's mechanics and implement diverse agents, including heuristic approaches (Aggressive, Conservative, Balanced, Opportunistic), search-based methods such as Monte Carlo Tree Search (MCTS) and Information Set Monte Carlo Tree Search (ISMCTS), and reinforcement learning approaches including Deep Q-Network (DQN) and Proximal Policy Optimization (PPO), and a random baseline. Evaluation involves within-category tournaments followed by a cross-category championship. Performance is measured via win rate, economic outcome, Jhyap success, cards discarded per round, risk assessment, and decision efficiency. Statistical significance is assessed using Welch's t-test with Bonferroni correction, effect sizes via Cohen's d, and 95% confidence intervals (CI). Across 1024 simulated rounds, the rule-based Aggressive agent achieves the highest win rate (88.3%, 95% CI: [86.3, 90.3]), outperforming ISMCTS (9.0%) and PPO (1.5%) through effective exploitation of Jhyap declarations. The study contributes a reproducible AI framework, insights into heuristic efficacy under partial information, and open-source code, thereby advancing AI research and supporting digital preservation of cultural games.
- Abstract(参考訳): 本研究では、ルールベース、検索ベース、学習ベースの戦略を体系的に比較することにより、文化的に重要な情報を持つマルチプレイヤーカードゲームであるDhumbalの人工知能(AI)エージェントを評価する。
我々はダンバルの力学を形式化し、ヒューリスティックなアプローチ(攻撃的、保守的、均衡的、機会主義的)、モンテカルロ木探索(MCTS)や情報集合モンテカルロ木探索(ISMCTS)のような探索に基づく手法、ディープQネットワーク(DQN)やプロキシポリシー最適化(PPO)といった強化学習アプローチ、ランダムなベースラインを含む多様なエージェントを実装する。
評価はカテゴリー内トーナメントに続き、カテゴリー内選手権が続く。
パフォーマンスは、勝利率、経済的成果、Jhyapの成功、ラウンド毎に捨てられたカード、リスク評価、意思決定効率によって測定される。
統計的意義は、ボンフェロニ補正によるウェルチのt検定、コーエンのdによる効果の大きさ、95%の信頼区間(CI)を用いて評価される。
1024回の模擬ラウンドでは、ルールベースの攻撃的エージェントが最も高い勝利率(88.3%、95% CI: [86.3, 90.3])を獲得し、ISMCTS(9.0%)とPPO(1.5%)を上回っている。
この研究は、再現可能なAIフレームワーク、部分的な情報の下でのヒューリスティックな有効性に関する洞察、およびオープンソースコードを提供し、それによってAI研究を前進させ、文化ゲームのデジタル保存をサポートする。
関連論文リスト
- Modern Deep Learning Approaches for Cricket Shot Classification: A Comprehensive Baseline Study [0.0]
本稿では,クリケットショット分類における7つの異なる深層学習手法を比較した,最初の総合的ベースライン研究を提案する。
我々は,従来のCNN-LSTMアーキテクチャ,アテンションベースモデル,ビジョントランスフォーマー,トランスファーラーニングアプローチ,モダンなEfficientNet-GRUの組み合わせを実装し,評価する。
我々の最新のSOTAアプローチは、効率の良いNet-B0とGRUベースの時間モデルを組み合わせることで、92.25%の精度を実現している。
論文 参考訳(メタデータ) (2025-10-10T09:32:29Z) - NAIPv2: Debiased Pairwise Learning for Efficient Paper Quality Estimation [58.30936615525824]
本稿では,紙の品質評価のための非バイアスで効率的なフレームワークであるNAIPv2を提案する。
NAIPv2は、レビューアレーティングの不整合を低減するために、ドメイン年グループ内でペアワイズ学習を採用している。
これはペアワイズ比較に基づいてトレーニングされるが、デプロイ時に効率的なポイントワイズ予測を可能にする。
論文 参考訳(メタデータ) (2025-09-29T17:59:23Z) - Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Population-based Evaluation in Repeated Rock-Paper-Scissors as a
Benchmark for Multiagent Reinforcement Learning [14.37986882249142]
簡単なゲームRock, Paper, Scissorsの繰り返しプレイに基づくマルチエージェント学習のためのベンチマークを提案する。
平均リターンとエクスプロイラビリティの両方に基づいて,エージェントの品質を測定するための指標について述べる。
論文 参考訳(メタデータ) (2023-03-02T15:06:52Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。