論文の概要: PuzzleJAX: A Benchmark for Reasoning and Learning
- arxiv url: http://arxiv.org/abs/2508.16821v1
- Date: Fri, 22 Aug 2025 22:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.193124
- Title: PuzzleJAX: A Benchmark for Reasoning and Learning
- Title(参考訳): PuzzleJAX: 推論と学習のためのベンチマーク
- Authors: Sam Earle, Graham Todd, Yuchen Li, Ahmed Khalifa, Muhammad Umair Nasir, Zehua Jiang, Andrzej Banburski-Fahey, Julian Togelius,
- Abstract要約: 本稿では,GPUアクセラレーションされたパズルゲームエンジンと記述言語であるPuzzleJAXを紹介する。
PuzzleJAXは、シンプルで直感的で理解しやすいタスクを自然に表現できることを示します。
- 参考スコア(独自算出の注目度): 11.20195634757888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce PuzzleJAX, a GPU-accelerated puzzle game engine and description language designed to support rapid benchmarking of tree search, reinforcement learning, and LLM reasoning abilities. Unlike existing GPU-accelerated learning environments that provide hard-coded implementations of fixed sets of games, PuzzleJAX allows dynamic compilation of any game expressible in its domain-specific language (DSL). This DSL follows PuzzleScript, which is a popular and accessible online game engine for designing puzzle games. In this paper, we validate in PuzzleJAX several hundred of the thousands of games designed in PuzzleScript by both professional designers and casual creators since its release in 2013, thereby demonstrating PuzzleJAX's coverage of an expansive, expressive, and human-relevant space of tasks. By analyzing the performance of search, learning, and language models on these games, we show that PuzzleJAX can naturally express tasks that are both simple and intuitive to understand, yet often deeply challenging to master, requiring a combination of control, planning, and high-level insight.
- Abstract(参考訳): 本稿では,GPUを高速化したパズルゲームエンジンであるPuzzleJAXを紹介し,木探索,強化学習,LLM推論能力の迅速なベンチマークを支援するために設計された記述言語について紹介する。
固定セットのハードコード実装を提供する既存のGPUアクセラレーション学習環境とは異なり、PuzzleJAXはドメイン固有言語(DSL)で表現可能な任意のゲームの動的コンパイルを可能にする。
このDSLはパズルゲームをデザインするための人気のあるオンラインゲームエンジンであるPuzzleScriptに従っている。
本稿では,2013年の公開以来,プロのデザイナーとカジュアルなクリエーターの両方がPuzzleScriptで設計した数千のゲームについて,PuzzleJAXで検証する。
これらのゲームにおける探索,学習,言語モデルの性能を分析することで,PuzzleJAXは,シンプルかつ直感的に理解可能なタスクを自然に表現できることが示される。
関連論文リスト
- Ludax: A GPU-Accelerated Domain Specific Language for Board Games [44.45953630612019]
Ludaxはボードゲーム用のドメイン固有言語で、自動的にハードウェアアクセラレーションされたコードにコンパイルされる。
我々はLudaxを、RLから認知科学まで、ゲーム研究全般を加速させるツールとして想定している。
論文 参考訳(メタデータ) (2025-06-27T20:15:53Z) - PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts [47.92619068073141]
我々は、ステップバイステップ、オープンエンド、クリエイティブマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介した。
ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。
誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-06-06T16:17:09Z) - Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint [48.35508965276618]
画像、空間配置、記号置換を通じて言語を符号化するリバスパズルは、現在の視覚言語モデル(VLM)に固有の課題をもたらす。
本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,多種多様な英語リバスパズルの手書きおよび注釈付きベンチマークを構築して検討する。
論文 参考訳(メタデータ) (2025-05-29T17:59:47Z) - Logic-of-Thought: Empowering Large Language Models with Logic Programs for Solving Puzzles in Natural Language [67.51318974970985]
自然言語でパズルを解くことは、AIにおける長年の課題である。
本稿では,大規模言語モデルを論理プログラミングでブリッジするフレームワークであるLogic-of-Thoughtを提案する。
動作を含む様々なグリッドパズルや動的パズルについて評価し、全てのタスクにおいてほぼ完璧な精度を示す。
論文 参考訳(メタデータ) (2025-05-22T01:37:40Z) - Making New Connections: LLMs as Puzzle Generators for The New York Times' Connections Word Game [6.136654326170453]
コネクションパズル(Connections puzzle)は、ニューヨーク・タイムズ(NYT)が毎日発行しているワードアソシエーションゲームである。
新たなパズルを生成するには、メタ認知の形式が必要である: ジェネレータは、潜在的な解決者の下流の推論を正確にモデル化できなければならない。
この結果から,LLMは有能なパズル作成者であり,人間によって判断されるような,楽しい,挑戦的な,創造的なコネクトパズルを多種多様なセットで生成できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T21:05:25Z) - Solving Witness-type Triangle Puzzles Faster with an Automatically
Learned Human-Explainable Predicate [0.29005223064604074]
We developed a search-based intelligence puzzle solver for The Witness game。
我々は、ウィットネス型パズルへの部分経路が解経路に合成可能でないかどうかを予測する人間の説明可能な述語を学ぶ。
我々は、学習した述語の重要な性質を証明し、それを検索において後継状態の刈り取りに利用できるようにした。
論文 参考訳(メタデータ) (2023-08-04T18:52:18Z) - Solving and Generating NPR Sunday Puzzles with Large Language Models [0.0]
最先端の大規模言語モデルは、多くのPUZZLEQAパズルを解くことができる。
最良のモデルは GPT-3.5 で、50.2% のゆるい精度である。
GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。
論文 参考訳(メタデータ) (2023-06-21T13:23:48Z) - Automated Graph Genetic Algorithm based Puzzle Validation for Faster
Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。
制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文 参考訳(メタデータ) (2023-02-17T18:15:33Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。