Fugu-MT 論文翻訳(概要): Can Language Models Solve Olympiad Programming?

論文の概要: Can Language Models Solve Olympiad Programming?

arxiv url: http://arxiv.org/abs/2404.10952v1
Date: Tue, 16 Apr 2024 23:27:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 15:43:59.633844
Title: Can Language Models Solve Olympiad Programming?
Title（参考訳）: 言語モデルはオリンピックプログラミングを解けるか?
Authors: Quan Shi, Michael Tang, Karthik Narasimhan, Shunyu Yao,
Abstract要約: 本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。 GPT-4 は 8.7% パス@1 の精度しか達成していない。
参考スコア（独自算出の注目度）: 40.54366634332231
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Computing olympiads contain some of the most challenging problems for humans, requiring complex algorithmic reasoning, puzzle solving, in addition to generating efficient code. However, it has been understudied as a domain to evaluate language models (LMs). In this paper, we introduce the USACO benchmark with 307 problems from the USA Computing Olympiad, along with high-quality unit tests, reference code, and official analyses for each problem. These resources enable us to construct and test a range of LM inference methods for competitive programming for the first time. We find GPT-4 only achieves a 8.7% pass@1 accuracy with zero-shot chain-of-thought prompting, and our best inference method improves it to 20.2% using a combination of self-reflection and retrieval over episodic knowledge. However, this is far from solving the benchmark. To better understand the remaining challenges, we design a novel human-in-the-loop study and surprisingly find that a small number of targeted hints enable GPT-4 to solve 13 out of 15 problems previously unsolvable by any model and method. Our benchmark, baseline methods, quantitative results, and qualitative analysis serve as an initial step toward LMs with grounded, creative, and algorithmic reasoning.
Abstract（参考訳）: オリンピアードの計算には、効率的なコードを生成することに加えて、複雑なアルゴリズム推論、パズルの解法を必要とする、人間にとって最も難しい問題が含まれている。しかし、言語モデル(LM)を評価する領域として研究されている。本稿では,USACOベンチマークをUSA Computing Olympiadから307の問題を抽出し,高品質な単体テスト,参照コード,各問題の公式解析を行った。これらのリソースは、競争力のあるプログラミングのための様々なLM推論手法を初めて構築し、テストすることを可能にする。 GPT-4 は 8.7% パス@1 の精度でゼロショットチェーン・オブ・シークレット・プロンプトでしか達成できず、我々の最良の推論手法は自己回帰とエピソード的知識による検索の組み合わせにより 20.2% に改善されている。しかし、これはベンチマークの解決には程遠い。残りの課題をよりよく理解するために、我々は新しい人間-イン-ザ-ループ研究を設計し、GPT-4がこれまでどんなモデルや方法でも解けなかった15の問題のうち13を、少数の目標ヒントで解決できることを驚くべきことに見出した。我々のベンチマーク、ベースライン法、定量化結果、質的分析は、基盤的、創造的、アルゴリズム的推論によるLMへの最初のステップとなる。

関連論文リスト

Evaluating and Improving Large Language Models for Competitive Program Generation [18.564450345359468]
本研究では,大規模言語モデル(LLM)を現実の競合プログラミング問題の解法として評価・改善することを目的とする。 2024年に開催された9つの地域ICPC/CCPCコンテストから117の問題を収集し、4つのフィルタリング基準を設計し、80の問題をキュレートしたベンチマークを構築した。我々は,オンライン審査員(OJ)プラットフォームを通じて,その競争プログラム生成能力を評価し,慎重に設計された基本的なプロンプトで指導する。
論文参考訳（メタデータ） (2025-06-28T17:18:23Z)
Large Language Models in Numberland: A Quick Test of Their Numerical Reasoning Abilities [0.0]
ナンバーランド(Numberland)は、LSMをベースとしたエージェントの数値推論能力を評価するための100プロブレム試験である。 OpenAIのo1とo1-mini, Google Gemini, Microsoft Copilot, Anthropic Claudeの5つのLDMエージェントを評価した。私たちは25の難しい問題に対してトップ24ソルバ(o1と73%の精度)をテストし、そのスコアは27%に低下し、ボトルネックとして検索を確認しました。
論文参考訳（メタデータ） (2025-03-31T21:06:39Z)
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。 CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文参考訳（メタデータ） (2025-01-02T13:49:00Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [7.856746367263317]
本稿では,大規模言語モデルの評価を目的とした頑健な評価フレームワークであるUTMath Benchmarkを紹介する。これは9つの数学領域にまたがる1053個の最先端問題を含み、平均68個のテストケースがある。最高の性能モデルであるo1-miniはわずか32.57%の問題を解き、o1-previewは27.16%、GPT-4oは26.93%であった。
論文参考訳（メタデータ） (2024-11-11T18:59:02Z)
LogicPro: Improving Complex Logical Reasoning via Program-Guided Learning [23.987059076950622]
本稿では,プログラム例を通して大規模言語モデル (LLM) の論理的推論を強化するための新しいアプローチであるLogicProを提案する。私たちは、広く利用可能なアルゴリズム問題とそのコードソリューションを単純に活用することで、これを効果的に実現します。提案手法はBBH$27$, GSM8K, HellSwag, Logicqa, Reclor, RTEデータセットの複数のモデルの大幅な改善を実現する。
論文参考訳（メタデータ） (2024-09-19T17:30:45Z)
Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。 LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文参考訳（メタデータ） (2024-06-18T00:44:58Z)
Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs [2.3020018305241337]
大きな言語モデルの推論能力を改善する効果的な方法として、明確な推論経路を蒸留する手法が登場している。本稿では, LLM から推論能力を抽出する手法を提案する。提案実験は,ReasonerがCoderによるプログラム実装をより効果的にガイドできることを示す。
論文参考訳（メタデータ） (2024-04-11T22:19:50Z)
Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-06-04T17:02:59Z)
Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文参考訳（メタデータ） (2023-05-24T11:55:59Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)
Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。 LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文参考訳（メタデータ） (2022-10-31T17:41:26Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。