論文の概要: Human-aligned Chess with a Bit of Search
- arxiv url: http://arxiv.org/abs/2410.03893v1
- Date: Fri, 4 Oct 2024 19:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 15:40:54.414569
- Title: Human-aligned Chess with a Bit of Search
- Title(参考訳): ささやかな検索機能を備えたヒトアライメントチェス
- Authors: Yiming Zhang, Athul Paul Jacob, Vivian Lai, Daniel Fried, Daphne Ippolito,
- Abstract要約: チェスは長年、AIが人間の知性と一致しようとする試みの場だった。
本稿では,この古典的なゲームにおいて,人工知能と人間の知能のギャップを埋めるために設計されたチェスをプレイするAIであるAllieを紹介する。
- 参考スコア(独自算出の注目度): 35.16633353273246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chess has long been a testbed for AI's quest to match human intelligence, and in recent years, chess AI systems have surpassed the strongest humans at the game. However, these systems are not human-aligned; they are unable to match the skill levels of all human partners or model human-like behaviors beyond piece movement. In this paper, we introduce Allie, a chess-playing AI designed to bridge the gap between artificial and human intelligence in this classic game. Allie is trained on log sequences of real chess games to model the behaviors of human chess players across the skill spectrum, including non-move behaviors such as pondering times and resignations In offline evaluations, we find that Allie exhibits humanlike behavior: it outperforms the existing state-of-the-art in human chess move prediction and "ponders" at critical positions. The model learns to reliably assign reward at each game state, which can be used at inference as a reward function in a novel time-adaptive Monte-Carlo tree search (MCTS) procedure, where the amount of search depends on how long humans would think in the same positions. Adaptive search enables remarkable skill calibration; in a large-scale online evaluation against players with ratings from 1000 to 2600 Elo, our adaptive search method leads to a skill gap of only 49 Elo on average, substantially outperforming search-free and standard MCTS baselines. Against grandmaster-level (2500 Elo) opponents, Allie with adaptive search exhibits the strength of a fellow grandmaster, all while learning exclusively from humans.
- Abstract(参考訳): チェスは長い間、人間の知性とマッチするAIの探求の試行場であり、近年ではチェスAIシステムがゲームで最強の人間を上回っている。
しかしながら、これらのシステムは人間と協調するものではなく、全ての人間のパートナーのスキルレベルと一致したり、部品の動きを超えた人間の様態をモデル化することができない。
本稿では,この古典的なゲームにおいて,人工知能と人間の知能のギャップを埋めるために設計されたチェスをプレイするAIであるAllieを紹介する。
Allieは実際のチェスゲームのログシーケンスに基づいてトレーニングされ、スキルスペクトル全体にわたって人間のチェス選手の振る舞いをモデル化する。例えば、熟考時間や辞退などの非移動行動 オフライン評価では、Allieは人間のような振る舞いを示す。
モデルでは,新たな時間適応型モンテカルロ木探索(MCTS)手順において,推定関数として使用可能な各ゲーム状態に対して,報酬を確実に割り当てることを学ぶ。
適応探索は,1000から2600Eloの格付けを持つプレイヤーに対する大規模なオンライン評価において,平均49Eloのスキルギャップを生じさせる。
グランドマスターレベル(2500エロ)の対戦相手に対して、適応探索のアリエは仲間のグランドマスターの強さを示し、全て人間から学習する。
関連論文リスト
- Maia-2: A Unified Model for Human-AI Alignment in Chess [10.577896749797485]
チェスにおける人間-AIアライメントのための統一モデリング手法を提案する。
プレイヤーの強みをエンコードしたチェス位置と動的に統合する,スキルアウェアアテンション機構を導入する。
我々の結果は、人間の意思決定とAIによる指導ツールに関する深い洞察を得るための道を開いた。
論文 参考訳(メタデータ) (2024-09-30T17:54:23Z) - Know your Enemy: Investigating Monte-Carlo Tree Search with Opponent
Models in Pommerman [14.668309037894586]
強化学習(Reinforcement Learning)と組み合わせて、モンテカルロ木探索(Monte-Carlo Tree Search)はChess、Shogi、Goといったゲームにおいて、人間のグランドマスターよりも優れていることを示した。
汎用マルチプレイヤーゲームからシングルプレイヤーゲームと2プレイヤーゲームに変換する手法について検討する。
論文 参考訳(メタデータ) (2023-05-22T16:39:20Z) - Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。
私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。
我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文 参考訳(メタデータ) (2022-11-07T18:43:25Z) - AI-powered mechanisms as judges: Breaking ties in chess [0.0]
本稿では,AIによる客観的タイブレッシング機構を提案する。
本手法は,強力なチェスエンジンによって提案される最適動作と比較することにより,選手の動きの質を評価する。
このアプローチは、競争の公平性と完全性を高めるだけでなく、ゲームの高水準を維持している。
論文 参考訳(メタデータ) (2022-10-15T13:27:49Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Mastering the Game of Stratego with Model-Free Multiagent Reinforcement
Learning [86.37438204416435]
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。
ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。
DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
論文 参考訳(メタデータ) (2022-06-30T15:53:19Z) - Collusion Detection in Team-Based Multiplayer Games [57.153233321515984]
チームベースのマルチプレイヤーゲームにおいて,協調動作を検出するシステムを提案する。
提案手法は,ゲーム内行動パターンと組み合わせたプレイヤーの社会的関係を解析する。
次に,非教師なし学習手法であるアイソレーションフォレストによる検出を自動化する。
論文 参考訳(メタデータ) (2022-03-10T02:37:39Z) - Learning Models of Individual Behavior in Chess [4.793072503820555]
チェスにおける個人行動の高精度な予測モデルを構築した。
私たちの研究は、AIシステムを個人の行動とよりよく一致させる方法を示しています。
論文 参考訳(メタデータ) (2020-08-23T18:24:21Z) - Aligning Superhuman AI with Human Behavior: Chess as a Model System [5.236087378443016]
我々は、人間のチェスゲームで訓練されたAlpha-Zeroのカスタマイズ版であるMaiaを開発し、既存のエンジンよりもはるかに高い精度で人間の動きを予測する。
人間が次の動きで大きな間違いを犯すかどうかを予測する2つのタスクに対して、我々は、競争ベースラインを大幅に上回るディープニューラルネットワークを開発する。
論文 参考訳(メタデータ) (2020-06-02T18:12:52Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。