論文の概要: Can Multi-turn Self-refined Single Agent LMs with Retrieval Solve Hard Coding Problems?
- arxiv url: http://arxiv.org/abs/2509.00629v1
- Date: Sat, 30 Aug 2025 23:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.311851
- Title: Can Multi-turn Self-refined Single Agent LMs with Retrieval Solve Hard Coding Problems?
- Title(参考訳): 検索型ハードコーディング問題のあるマルチターン自己精製単剤膜
- Authors: Md Tanzib Hosain, Md Kishor Morol,
- Abstract要約: 本研究では,国際協調プログラミングコンテスト(ICPC)254の課題からなるICPCベンチマークを提案する。
我々は、これらのリソースと競合するプログラミングのための様々なLM推論手法を開発し、評価する。
驚くべきことに、o1が18のうち17の問題を解決できることがわかりました。
- 参考スコア(独自算出の注目度): 0.34376560669160394
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Among the hardest tasks for humans are those found in competitive programming where problems require sophisticated algorithmic thinking, puzzle solving, and the creation of effective code. As a domain to assess language models (LMs), it has not received enough attention, though. This study presents the ICPC benchmark, which consists of 254 international collegiate programming contest (ICPC) tasks. Each problem includes official analysis, reference code, and sample, high-quality unit, and hidden tests. We are able to develop and evaluate a variety of LM inference techniques for competitive programming with these resources. With zero-shot chain-of-thought prompting, we find that o1 only achieves a 19.1\% pass@1 solve rate. With our best inference technique, which combines multi-turn self-judge with reflection and retrieval over episodic information, raises this to 42.2\%. Furthermore, we conduct a new human-in-the-loop investigation to gain a deeper understanding of the remaining difficulties. Surprisingly, we discover that o1 can solve 17 out of 18 problems that were previously unsolvable by any model or technique with just a few specific instructions. A footstep toward LMs with grounded, imaginative, and algorithmic thinking is provided by our quantitative findings and qualitative research. We open-source our code and data at https://github.com/kraritt/zolve.
- Abstract(参考訳): 人間にとって最も難しいタスクは、高度なアルゴリズム思考、パズルの解法、効果的なコードの作成を必要とする競合プログラミングで見られるものである。
言語モデル(LM)を評価するドメインとして、十分な注意が払われていない。
本研究では,国際協調プログラミングコンテスト(ICPC)254の課題からなるICPCベンチマークを提案する。
それぞれの問題には、公式な分析、参照コード、サンプル、高品質なユニットテスト、隠れテストが含まれる。
我々は、これらのリソースと競合するプログラミングのための様々なLM推論手法を開発し、評価することができる。
ゼロショット連鎖のプロンプトにより、o1 は 19.1 % のpass@1 の解率しか達成できないことが分かる。
マルチターン・セルフ・ジャッジと反射とエピソード情報による検索を組み合わせたベスト推論手法により,42.2\%まで上昇する。
さらに,残りの難易度をより深く理解するために,新たな人-人-ループ調査を行う。
驚くべきことに、o1が18のうち17の問題を解決できることがわかりました。
定量的発見と定性的研究により, 基礎的, 想像的, アルゴリズム的思考を伴う LM への歩みを示す。
コードとデータはhttps://github.com/kraritt/zolve.comで公開しています。
関連論文リスト
- AlgoSimBench: Identifying Algorithmically Similar Problems for Competitive Programming [2.3020018305241337]
アルゴリズムに類似した問題(ASPs)を識別する能力を評価するために設計された新しいベンチマークであるAlgoSimBenchを紹介した。
AlgoSimBenchは1317の問題で構成されており、異なる粒度のアルゴリズムタグで注釈付けされ、そこから402の多重選択質問(MCQ)を逸脱する。
評価の結果, LLM は ASP の識別に苦慮し, MCQ タスクでは 65.9% の精度で最高の性能のモデル (o3-mini) が得られた。
本稿では,問題類似性検出のための新しい手法である解マッチング(ASM)を提案する。
論文 参考訳(メタデータ) (2025-07-21T08:34:20Z) - FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming [19.576944188747166]
FormulaOne(フォーミュラワン)は、グラフ理論、論理、アルゴリズムのベンチマークである。
私たちの問題は非常に要求に富んでおり、いくつかの推論ステップを必要としています。
注目すべきは、OpenAIのo3のような最先端のモデルはF1で完全に失敗することです。
論文 参考訳(メタデータ) (2025-07-17T17:53:55Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。
もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。
LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - Probeable Problems for Beginner-level Programming-with-AI Contests [0.0]
我々は,複数の機関の学部生を対象に,2時間のプログラミングコンテストを実施している。
学生は個人またはグループで働けるようになり、AIツールを自由に使えるようになった。
これらのグループによって提出されたコードが、欠落した詳細を特定できる範囲を分析し、形式的および非公式なCS教育文脈における学習を支援する方法を特定する。
論文 参考訳(メタデータ) (2024-05-24T00:39:32Z) - Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。
競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。
GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文 参考訳(メタデータ) (2024-04-16T23:27:38Z) - Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs [2.3020018305241337]
大きな言語モデルの推論能力を改善する効果的な方法として、明確な推論経路を蒸留する手法が登場している。
本稿では, LLM から推論能力を抽出する手法を提案する。
提案実験は,ReasonerがCoderによるプログラム実装をより効果的にガイドできることを示す。
論文 参考訳(メタデータ) (2024-04-11T22:19:50Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。