論文の概要: Toward Modeling Player-Specific Chess Behaviors
- arxiv url: http://arxiv.org/abs/2605.11893v1
- Date: Tue, 12 May 2026 10:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.786311
- Title: Toward Modeling Player-Specific Chess Behaviors
- Title(参考訳): プレイヤー特有のチェス行動のモデル化に向けて
- Authors: Loris Sogliuzzo, Aloïs Rautureau, Eric Piette,
- Abstract要約: 既存の人間のようなチェスモデルは、特定の歴史的チャンピオンの行動特性を再現することができない。
チャンピオン固有の埋め込みに統一されたMaia-2モデルを適用するアーキテクチャを提案する。
Jensen-Shannonの発散に基づく新しい行動指標が導入された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While artificial intelligence has achieved superhuman performance in chess, developing models that accurately emulate the individualized decision-making styles of human players remains a significant challenge. Existing human-like chess models capture general population behaviors based on skill levels but fail to reproduce the behavioral characteristics of specific historical champions. Furthermore, the standard evaluation metric, move accuracy, inherently penalizes natural human variance and ignores long-term behavioral consistency, leading to an incomplete assessment of stylistic fidelity. To address these limitations, an architecture is proposed that adapts the unified Maia-2 model to champion-specific embeddings, further enhanced by the integration of a limited Monte Carlo Tree Search (MCTS) process to enrich tactical exploration during move selection. To robustly evaluate this approach, a novel behavioral metric based on the Jensen-Shannon divergence is introduced. By compressing high-dimensional board representations into a latent space using an AutoEncoder and Uniform Manifold Approximation and Projection (UMAP), move distributions are discretized on a common grid to compare behavioral similarities. Results across 16 historical world champions indicate that while integrating MCTS decreases standard move accuracy, it improves stylistic alignment according to the proposed metric, substantially reducing the average Jensen-Shannon divergence. Ultimately, the proposed metric successfully discriminates between individual players and provides promising evidence toward more comprehensive evaluations of behavioral alignment between players and AI models.
- Abstract(参考訳): 人工知能はチェスで超人的なパフォーマンスを達成したが、人間の個人化された意思決定スタイルを正確にエミュレートするモデルを開発することは大きな課題である。
既存の人間のようなチェスモデルでは、スキルレベルに基づいて集団の振る舞いをキャプチャするが、特定の歴史的チャンピオンの行動特性を再現することができない。
さらに、標準的な評価基準である移動精度は、自然の人間の分散を本質的にペナルティ化し、長期の行動整合性を無視し、スタイリスティックな忠実さの不完全な評価に繋がる。
これらの制約に対処するため、Mia-2モデルをチャンピオン固有の埋め込みに適用するアーキテクチャが提案され、移動選択時の戦術探索を強化するために限られたモンテカルロ木探索(MCTS)プロセスの統合によりさらに強化された。
このアプローチを頑健に評価するために,ジェンセン・シャノンの発散に基づく新しい行動指標を導入する。
高次元ボード表現をAutoEncoderとUniform Manifold Approximation and Projection (UMAP)を用いて潜在空間に圧縮することにより、移動分布を共通の格子上で離散化し、挙動類似性を比較する。
16の歴史的世界チャンピオンの成績は、MCTSの統合は標準移動精度を低下させるが、提案した基準に従ってスタイル整合を改善し、平均的なジェンセン-シャノンの発散を著しく減少させることを示している。
最終的に、提案した指標は個々のプレイヤーの識別に成功し、プレイヤーとAIモデル間の行動アライメントをより包括的に評価するための有望な証拠を提供する。
関連論文リスト
- Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces [81.41397370235102]
我々はOmniBehaviorを紹介した。OmniBehaviorは実世界のデータから構築された最初のユーザシミュレーションベンチマークである。
現在のモデルでは,コンテキストウィンドウが拡大しても,複雑な振る舞いを正確にシミュレートすることが困難であることを示す。
この結果、個人差や長い尾の挙動が失われ、将来の高忠実度シミュレーション研究における重要な方向性が浮き彫りになる。
論文 参考訳(メタデータ) (2026-04-09T15:26:21Z) - Alignment Makes Language Models Normative, Not Descriptive [20.47884338846419]
トレーニング後のアライメントは、人間の嗜好信号と一致するように言語モデルを最適化するが、この目的は観察された人間の行動のモデリングと等価ではない。
マルチラウンド戦略ゲームにおいて、120のベースアライメントモデルペアを1万以上の人間による決定に対して比較する。
論文 参考訳(メタデータ) (2026-03-17T23:47:08Z) - OmniSapiens: A Foundation Model for Social Behavior Processing via Heterogeneity-Aware Relative Policy Optimization [50.11607985532808]
異種タスクとサンプルのバランスをとるRL法であるHARPO(Heterogeneity-Aware Relative Policy Optimization)を紹介する。
HARPOを用いて,社会行動処理の基礎モデルであるOmnisapiens-7B 2.0を開発した。
既存の行動基盤モデルとは対照的に、Omnisapiens-7B 2.0は行動タスク間で最高のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-11T08:35:59Z) - DisCo: Reinforcement with Diversity Constraints for Multi-Human Generation [60.741022906593685]
DisCoは、マルチヒューマン世代におけるアイデンティティの多様性を直接最適化する最初のRLベースのフレームワークである。
グループ相対ポリシー最適化によるDisCo微粒フローマッチングモデル。
DiverseHumans Testsetでは、DisCoは98.6のユニークな顔の精度とほぼ完璧なグローバルアイデンティティスプレッドを実現している。
論文 参考訳(メタデータ) (2025-10-01T19:28:51Z) - Unified Representation Learning for Multi-Intent Diversity and Behavioral Uncertainty in Recommender Systems [6.438278082601862]
本稿では,レコメンデーションシステムにおけるユーザ意図の多様性と行動の不確実性を共同でモデル化することの課題に対処する。
このフレームワークはマルチインテント表現モジュールと不確実性モデリング機構を構築している。
ユーザ行動系列から多粒性関心構造を抽出する。
論文 参考訳(メタデータ) (2025-09-04T22:53:38Z) - Learning to Imitate with Less: Efficient Individual Behavior Modeling in Chess [10.090379544417432]
Maia4Allは、個々の意思決定スタイルを効率的に学習し、適応するように設計されたフレームワークである。
Maia4Allはチェスの個人的行動モデリングを20ゲームで達成している。
論文 参考訳(メタデータ) (2025-07-29T04:09:31Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - Learning signatures of decision making from many individuals playing the
same game [54.33783158658077]
我々は、個人の「行動スタイル」を符号化する表現を学習する予測フレームワークを設計する。
我々は,3本腕のバンディットタスクを行う1,000人の人間による大規模行動データセットに本手法を適用した。
論文 参考訳(メタデータ) (2023-02-21T21:41:53Z) - Detecting Individual Decision-Making Style: Exploring Behavioral
Stylometry in Chess [4.793072503820555]
チェスの文脈における行動スタイメトリーに対するトランスフォーマーに基づくアプローチを提案する。
本手法は,数発の分類フレームワークで動作し,数千人の候補選手の中から選手を正確に識別することができる。
我々は、チェスにおける人間のスタイルと潜在的な倫理的意味について、結果の埋め込みが明らかにするものをより広く検討する。
論文 参考訳(メタデータ) (2022-08-02T11:18:16Z) - Adversarial Learning for Counterfactual Fairness [15.302633901803526]
近年、フェアネスは機械学習研究コミュニティにおいて重要なトピックとなっている。
我々は,MDDの罰則よりも強力な推論を可能にする,対向的ニューラルネットワークアプローチに頼ることを提案する。
実験では、離散的および連続的な設定の両方に対して、対実的公正性の観点から、顕著な改善が示された。
論文 参考訳(メタデータ) (2020-08-30T09:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。