論文の概要: PUZZLES: A Benchmark for Neural Algorithmic Reasoning
- arxiv url: http://arxiv.org/abs/2407.00401v1
- Date: Sat, 29 Jun 2024 11:02:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 03:25:29.400699
- Title: PUZZLES: A Benchmark for Neural Algorithmic Reasoning
- Title(参考訳): PUZZLES: ニューラルネットワーク推論のためのベンチマーク
- Authors: Benjamin Estermann, Luca A. Lanzendörfer, Yannick Niedermayr, Roger Wattenhofer,
- Abstract要約: 我々は,Simon Tatham の Portable Puzzle Collection に基づくベンチマーク PUZLES を紹介する。
PUZZLESには、調整可能なサイズと様々な複雑さの40の多様な論理パズルが含まれている。
パズルはRLエージェントの強度と一般化能力に関する詳細な情報を提供する。
- 参考スコア(独自算出の注目度): 21.57943896942296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algorithmic reasoning is a fundamental cognitive ability that plays a pivotal role in problem-solving and decision-making processes. Reinforcement Learning (RL) has demonstrated remarkable proficiency in tasks such as motor control, handling perceptual input, and managing stochastic environments. These advancements have been enabled in part by the availability of benchmarks. In this work we introduce PUZZLES, a benchmark based on Simon Tatham's Portable Puzzle Collection, aimed at fostering progress in algorithmic and logical reasoning in RL. PUZZLES contains 40 diverse logic puzzles of adjustable sizes and varying levels of complexity; many puzzles also feature a diverse set of additional configuration parameters. The 40 puzzles provide detailed information on the strengths and generalization capabilities of RL agents. Furthermore, we evaluate various RL algorithms on PUZZLES, providing baseline comparisons and demonstrating the potential for future research. All the software, including the environment, is available at https://github.com/ETH-DISCO/rlp.
- Abstract(参考訳): アルゴリズム推論は、問題解決と意思決定プロセスにおいて重要な役割を果たす基本的な認知能力である。
強化学習 (Reinforcement Learning, RL) は, 運動制御, 知覚入力処理, 確率的環境管理などのタスクにおいて, 卓越した熟練度を示した。
これらの進歩は、部分的にはベンチマークの可用性によって実現されている。
本稿では,Simon Tatham氏のPortable Puzzle CollectionをベースとしたベンチマークであるPUZLESを紹介する。
PUZZLESには、調整可能なサイズと様々なレベルの複雑さを持つ40の多様な論理パズルが含まれている。
40のパズルは、RLエージェントの強度と一般化能力に関する詳細な情報を提供する。
さらに,PUZLES上での様々なRLアルゴリズムの評価を行い,ベースライン比較を行い,今後の研究の可能性を示す。
環境を含む全てのソフトウェアはhttps://github.com/ETH-DISCO/rlp.comで入手できる。
関連論文リスト
- ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - A Comprehensive Survey of Reinforcement Learning: From Algorithms to Practical Challenges [2.2448567386846916]
強化学習(RL)は人工知能(AI)の強力なパラダイムとして登場した。
本稿では,多種多様なアルゴリズムを巧みに分析するRLの包括的調査を行う。
我々は、RLアルゴリズムの選択と実装に関する実践的な洞察を提供し、収束、安定性、探索-探索ジレンマといった共通の課題に対処する。
論文 参考訳(メタデータ) (2024-11-28T03:53:14Z) - OGBench: Benchmarking Offline Goal-Conditioned RL [72.00291801676684]
オフライン目標条件強化学習(GCRL)は強化学習における大きな問題である。
オフラインゴール条件RLにおけるアルゴリズム研究のための,新しい高品質なベンチマークであるOGBenchを提案する。
論文 参考訳(メタデータ) (2024-10-26T06:06:08Z) - Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning [3.8309622155866583]
Sliding Puzzles Gym (SPGym) は、従来の8タイルパズルを任意に大きなデータセットから得られる画像の視覚的観察空間で再現する新しいベンチマークである。
SPGymは、視覚多様性を通じて表現複雑性を正確に制御し、研究者が表現学習課題を体系的にスケールできるようにする。
可能な画像のプールを広げることで、視覚的多様性が増すにつれて、テスト対象のアルゴリズムはすべて、大幅な性能劣化を示す。
論文 参考訳(メタデータ) (2024-10-17T21:23:03Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。
任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。
広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious
Challenges in Multimodal Reasoning [24.386388107656334]
本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。
本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
論文 参考訳(メタデータ) (2024-03-06T17:15:04Z) - LightZero: A Unified Benchmark for Monte Carlo Tree Search in General
Sequential Decision Scenarios [32.83545787965431]
学習モデルを用いた木探索計画能力に基づくエージェントの構築は、GoやAtariといった古典的な意思決定問題において大きな成功を収めている。
モンテカルロ木探索(MCTS)ベースのアルゴリズムを様々な現実世界のアプリケーションに拡張することは困難または不可能であるとみなされている。
本稿では,MCTS/MuZeroを一般的な逐次決定シナリオに展開するための最初の統一ベンチマークであるLightZeroを紹介する。
論文 参考訳(メタデータ) (2023-10-12T14:18:09Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。