Fugu-MT 論文翻訳(概要): PUZZLES: A Benchmark for Neural Algorithmic Reasoning

論文の概要: PUZZLES: A Benchmark for Neural Algorithmic Reasoning

arxiv url: http://arxiv.org/abs/2407.00401v1
Date: Sat, 29 Jun 2024 11:02:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 03:25:29.400699
Title: PUZZLES: A Benchmark for Neural Algorithmic Reasoning
Title（参考訳）: PUZZLES: ニューラルネットワーク推論のためのベンチマーク
Authors: Benjamin Estermann, Luca A. Lanzendörfer, Yannick Niedermayr, Roger Wattenhofer,
Abstract要約: 我々は,Simon Tatham の Portable Puzzle Collection に基づくベンチマーク PUZLES を紹介する。 PUZZLESには、調整可能なサイズと様々な複雑さの40の多様な論理パズルが含まれている。パズルはRLエージェントの強度と一般化能力に関する詳細な情報を提供する。
参考スコア（独自算出の注目度）: 21.57943896942296
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Algorithmic reasoning is a fundamental cognitive ability that plays a pivotal role in problem-solving and decision-making processes. Reinforcement Learning (RL) has demonstrated remarkable proficiency in tasks such as motor control, handling perceptual input, and managing stochastic environments. These advancements have been enabled in part by the availability of benchmarks. In this work we introduce PUZZLES, a benchmark based on Simon Tatham's Portable Puzzle Collection, aimed at fostering progress in algorithmic and logical reasoning in RL. PUZZLES contains 40 diverse logic puzzles of adjustable sizes and varying levels of complexity; many puzzles also feature a diverse set of additional configuration parameters. The 40 puzzles provide detailed information on the strengths and generalization capabilities of RL agents. Furthermore, we evaluate various RL algorithms on PUZZLES, providing baseline comparisons and demonstrating the potential for future research. All the software, including the environment, is available at https://github.com/ETH-DISCO/rlp.
Abstract（参考訳）: アルゴリズム推論は、問題解決と意思決定プロセスにおいて重要な役割を果たす基本的な認知能力である。強化学習 (Reinforcement Learning, RL) は, 運動制御, 知覚入力処理, 確率的環境管理などのタスクにおいて, 卓越した熟練度を示した。これらの進歩は、部分的にはベンチマークの可用性によって実現されている。本稿では,Simon Tatham氏のPortable Puzzle CollectionをベースとしたベンチマークであるPUZLESを紹介する。 PUZZLESには、調整可能なサイズと様々なレベルの複雑さを持つ40の多様な論理パズルが含まれている。 40のパズルは、RLエージェントの強度と一般化能力に関する詳細な情報を提供する。さらに,PUZLES上での様々なRLアルゴリズムの評価を行い,ベースライン比較を行い,今後の研究の可能性を示す。環境を含む全てのソフトウェアはhttps://github.com/ETH-DISCO/rlp.comで入手できる。

関連論文リスト

DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文参考訳（メタデータ） (2025-07-29T17:55:23Z)
LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning [29.047063129464494]
大規模言語モデル(LLM)は多くの教師付きタスクで優れるが、よくなじみのない設定で構造化された推論に悩まされる。この矛盾は、標準的な微調整パイプラインが汎用的な思考戦略を育むのではなく、狭く、ドメイン固有のものを注入する可能性があることを示唆している。本研究では,7つのカスタム論理パズルの組による強化学習を通じて,LLMを微調整する「学習のための遊び」フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-05T09:40:47Z)
Logic-of-Thought: Empowering Large Language Models with Logic Programs for Solving Puzzles in Natural Language [67.51318974970985]
自然言語でパズルを解くことは、AIにおける長年の課題である。本稿では,大規模言語モデルを論理プログラミングでブリッジするフレームワークであるLogic-of-Thoughtを提案する。動作を含む様々なグリッドパズルや動的パズルについて評価し、全てのタスクにおいてほぼ完璧な精度を示す。
論文参考訳（メタデータ） (2025-05-22T01:37:40Z)
PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving [50.50405233978406]
我々は、OVPG(Open-ended Visual Puzzle Generation)という、完全に動的なマルチモーダル評価フレームワークを提案する。 OVPGは、パズル解決タスクにおいて、新しく、多様性があり、検証可能な評価データを自動的に生成することを目的としている。 OVPG上に構築されたPuzzleBenchは11,840のVQAサンプルからなる動的でスケーラブルなベンチマークである。
論文参考訳（メタデータ） (2025-04-15T05:29:31Z)
ERL-MPP: Evolutionary Reinforcement Learning with Multi-head Puzzle Perception for Solving Large-scale Jigsaw Puzzles of Eroded Gaps [28.009783235854584]
マルチヘッド・プッフル・パーセプションを用いた進化的強化学習の枠組みを提案する。提案したERL-MPPは、大きなギャップを持つJPLEG-5データセットと大規模なパズルを持つMITデータセットで評価される。両方のデータセットのすべての最先端モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2025-04-13T14:56:41Z)
VGRP-Bench: Visual Grid Reasoning Puzzle Benchmark for Large Vision-Language Models [31.645103181716678]
LVLM(Large Vision-Language Models)は、正確な認識、ルール理解、論理的推論を必要とするパズルと競合する。 VGRP-Benchは、20種類のパズルを特徴とするVisual Grid Reasoning Puzzle Benchmarkである。以上の結果から,現在最先端のLVLMでさえこれらのパズルに苦戦していることが明らかとなり,パズル解法の基本的限界が浮き彫りになった。
論文参考訳（メタデータ） (2025-03-29T12:50:38Z)
ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。 ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文参考訳（メタデータ） (2025-02-03T06:44:49Z)
A Comprehensive Survey of Reinforcement Learning: From Algorithms to Practical Challenges [2.2448567386846916]
強化学習(RL)は人工知能(AI)の強力なパラダイムとして登場した。本稿では,多種多様なアルゴリズムを巧みに分析するRLの包括的調査を行う。我々は、RLアルゴリズムの選択と実装に関する実践的な洞察を提供し、収束、安定性、探索-探索ジレンマといった共通の課題に対処する。
論文参考訳（メタデータ） (2024-11-28T03:53:14Z)
OGBench: Benchmarking Offline Goal-Conditioned RL [72.00291801676684]
オフライン目標条件強化学習(GCRL)は強化学習における大きな問題である。オフラインゴール条件RLにおけるアルゴリズム研究のための,新しい高品質なベンチマークであるOGBenchを提案する。
論文参考訳（メタデータ） (2024-10-26T06:06:08Z)
Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning [3.8309622155866583]
Sliding Puzzles Gym (SPGym) は従来の15タイルパズルをグリッドサイズと観測空間で拡張したベンチマークである。 SPGymは、潜在環境の動的性とアルゴリズム的問題を固定しつつ、表現学習課題のスケーリングを可能にする。モデルフリーとモデルベース両方のRLアルゴリズムを用いた実験では,表現課題がスケールするにつれて,SPGymはエージェントの能力に基づいて効果的にエージェントを識別できることが示されている。
論文参考訳（メタデータ） (2024-10-17T21:23:03Z)
LogicPro: Improving Complex Logical Reasoning via Program-Guided Learning [23.987059076950622]
本稿では,プログラム例を通して大規模言語モデル (LLM) の論理的推論を強化するための新しいアプローチであるLogicProを提案する。私たちは、広く利用可能なアルゴリズム問題とそのコードソリューションを単純に活用することで、これを効果的に実現します。提案手法はBBH$27$, GSM8K, HellSwag, Logicqa, Reclor, RTEデータセットの複数のモデルの大幅な改善を実現する。
論文参考訳（メタデータ） (2024-09-19T17:30:45Z)
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文参考訳（メタデータ） (2024-05-02T18:12:08Z)
Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning [24.386388107656334]
本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
論文参考訳（メタデータ） (2024-03-06T17:15:04Z)
LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios [32.83545787965431]
学習モデルを用いた木探索計画能力に基づくエージェントの構築は、GoやAtariといった古典的な意思決定問題において大きな成功を収めている。モンテカルロ木探索(MCTS)ベースのアルゴリズムを様々な現実世界のアプリケーションに拡張することは困難または不可能であるとみなされている。本稿では,MCTS/MuZeroを一般的な逐次決定シナリオに展開するための最初の統一ベンチマークであるLightZeroを紹介する。
論文参考訳（メタデータ） (2023-10-12T14:18:09Z)
Are Deep Neural Networks SMARTer than Second Graders? [85.60342335636341]
6～8歳児を対象としたビジュオ言語パズルの解法において,ニューラルネットワークの抽象化,推論,一般化能力の評価を行った。我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵の質問で構成されており、それらの解には算術、代数学、空間推論を含むいくつかの基本的なスキルが混在している必要がある。実験により、強力なディープモデルは教師付き設定でパズルに合理的な性能を与えるが、一般化のために解析するとランダムな精度よりは良くないことが明らかになった。
論文参考訳（メタデータ） (2022-12-20T04:33:32Z)
Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文参考訳（メタデータ） (2021-03-23T17:49:50Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)
The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文参考訳（メタデータ） (2020-06-24T14:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。