論文の概要: Programming Puzzles
- arxiv url: http://arxiv.org/abs/2106.05784v1
- Date: Thu, 10 Jun 2021 14:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:40:39.811884
- Title: Programming Puzzles
- Title(参考訳): パズルのプログラミング
- Authors: Tal Schuster, Ashwin Kalyan, Oleksandr Polozov, Adam Tauman Kalai
- Abstract要約: 我々はPython Programming Puzzles (P3)のオープンソースデータセットをリリースしました。
パズルは、各パズルが検証子$f$のソースコードによって完全に指定されることで客観的である。
答えキーやインプット/アウトプットの例は必要ないし、自然言語の理解にも依存しない。
- 参考スコア(独自算出の注目度): 31.797853936252594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new type of programming challenge called programming puzzles,
as an objective and comprehensive evaluation of program synthesis, and release
an open-source dataset of Python Programming Puzzles (P3). Each puzzle is
defined by a short Python program $f$, and the goal is to find an input $x$
which makes $f$ output "True". The puzzles are objective in that each one is
specified entirely by the source code of its verifier $f$, so evaluating $f(x)$
is all that is needed to test a candidate solution $x$. They do not require an
answer key or input/output examples, nor do they depend on natural language
understanding. The dataset is comprehensive in that it spans problems of a
range of difficulties and domains, ranging from trivial string manipulation
problems that are immediately obvious to human programmers (but not necessarily
to AI), to classic programming puzzles (e.g., Towers of Hanoi), to
interview/competitive-programming problems (e.g., dynamic programming), to
longstanding open problems in algorithms and mathematics (e.g., factoring). The
objective nature of P3 readily supports self-supervised bootstrapping. We
develop baseline enumerative program synthesis and GPT-3 solvers that are
capable of solving easy puzzles -- even without access to any reference
solutions -- by learning from their own past solutions. Based on a small user
study, we find puzzle difficulty to correlate between human programmers and the
baseline AI solvers.
- Abstract(参考訳): プログラム合成の客観的かつ包括的評価としてプログラミングパズルと呼ばれる新しいタイプのプログラミングチャレンジを導入し、pythonプログラミングパズル(p3)のオープンソースデータセットをリリースする。
それぞれのパズルは、短いPythonプログラム$f$で定義され、そのゴールは、$f$出力"True"を生成する入力$x$を見つけることである。
パズルは、それぞれが検証子$f$のソースコードによって完全に指定されるので、$f(x)$を評価することは、候補解$x$をテストするのに必要なすべてである。
答えのキーや入出力の例は必要ありませんし、自然言語理解にも依存しません。
このデータセットは、人間のプログラマ(aiではない)にとってすぐに明らかな簡単な文字列操作問題から、古典的なプログラミングパズル(ハノイの塔など)、インタビュー/競争プログラミング問題(動的プログラミングなど)、アルゴリズムや数学における長年のオープン問題(ファクタリングなど)まで、さまざまな困難や領域の問題にまたがっている。
p3の客観的な性質は自己教師付きブートストラップをサポートする。
我々は、ベースラインの列挙型プログラム合成とgpt-3ソルバを開発し、過去のソリューションから学習することで、簡単なパズル(参照ソリューションにアクセスせずにも)を解くことができる。
小さなユーザスタディに基づいて、人間のプログラマとベースラインAIソルバの相関が難しいことが分かりました。
関連論文リスト
- Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。
競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。
GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文 参考訳(メタデータ) (2024-04-16T23:27:38Z) - Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious
Challenges in Multimodal Reasoning [24.386388107656334]
本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。
本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
論文 参考訳(メタデータ) (2024-03-06T17:15:04Z) - PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial
Reasoning Problems? [27.696027301600793]
本稿では,31の課題のデータセットであるPuzzleBenchについて紹介する。
これらの問題は、すべて第一次、すなわち、様々な大きさの問題のインスタンスでインスタンス化でき、そのほとんどはNPハードである。
まず,LLMがシンボリック・ソルバによって支援されても,データセット上ではかなり低性能であることを示す。
そこで本研究では,LLMとシンボルソルバとインタプリタを組み合わせた新しいアプローチであるPuzzle-LMを提案する。
論文 参考訳(メタデータ) (2024-02-04T20:56:09Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Can Language Models Solve Graph Problems in Natural Language? [51.28850846990929]
大型言語モデル (LLM) は暗黙的なグラフィカル構造を持つ様々なタスクに採用されている。
自然言語をシミュレーションするグラフベース問題解決のベンチマークであるNLGraphを提案する。
論文 参考訳(メタデータ) (2023-05-17T08:29:21Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Competition-Level Code Generation with AlphaCode [74.87216298566942]
より深い推論を必要とする問題に対する新しいソリューションを作成することができるコード生成システムであるAlphaCodeを紹介する。
Codeforcesプラットフォームにおける最近のプログラミングコンペティションのシミュレーション評価において、AlphaCodeは平均54.3%のランキングを達成した。
論文 参考訳(メタデータ) (2022-02-08T23:16:31Z) - On Theoretical Complexity and Boolean Satisfiability [0.0]
この論文は、コンピューティング理論において最も中心的な概念をいくつか導入している。
次に,Hhorn-SAT や 3-SAT などの抽出可能な変種を探索する。
最後に,3-SATから有名なNP完全グラフ問題への還元を確立する。
論文 参考訳(メタデータ) (2021-12-22T10:13:34Z) - Solving Linear Algebra by Program Synthesis [1.0660480034605238]
我々は、MITのLinear Algebra 18.06コースとコロンビア大学のComputational Linear Algebra COMS3251コースを、インタラクティブなプログラム合成によって完全な精度で解決する。
この驚くほど強い結果は、コース質問をプログラミングタスクに変換し、プログラムを実行して正しい回答を生成することで達成されます。
論文 参考訳(メタデータ) (2021-11-16T01:16:43Z) - PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。
私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。
単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文 参考訳(メタデータ) (2020-04-27T20:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。