Fugu-MT 論文翻訳(概要): BigO(Bench) -- Can LLMs Generate Code with Controlled Time and Space Complexity?

論文の概要: BigO(Bench) -- Can LLMs Generate Code with Controlled Time and Space Complexity?

arxiv url: http://arxiv.org/abs/2503.15242v1
Date: Wed, 19 Mar 2025 14:19:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 17:45:40.987715
Title: BigO(Bench) -- Can LLMs Generate Code with Controlled Time and Space Complexity?
Title（参考訳）: BigO(Bench) -- LLMは時間と空間の複雑さを制御したコードを生成することができるか?
Authors: Pierre Chambon, Baptiste Roziere, Benoit Sagot, Gabriel Synnaeve,
Abstract要約: BigO(Bench)は、特定の時間と空間の複雑さでコードを理解し、生成する言語モデルの能力を評価するために設計された、新しいコーディングベンチマークである。 BigO(Bench)には、プロファイリング測定から任意のPython関数のアルゴリズム上の複雑さを推測するツールが含まれている。このベンチマークで、複数の最先端言語モデルを評価し、複雑さの要求に対処する際の長所と短所を強調した。
参考スコア（独自算出の注目度）: 20.550427148810556
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce BigO(Bench), a novel coding benchmark designed to evaluate the capabilities of generative language models in understanding and generating code with specified time and space complexities. This benchmark addresses the gap in current evaluations that often overlook the ability of models to comprehend and produce code constrained by computational complexity. BigO(Bench) includes tooling to infer the algorithmic complexity of any Python function from profiling measurements, including human- or LLM-generated solutions. BigO(Bench) also includes of set of 3,105 coding problems and 1,190,250 solutions from Code Contests annotated with inferred (synthetic) time and space complexity labels from the complexity framework, as well as corresponding runtime and memory footprint values for a large set of input sizes. We present results from evaluating multiple state-of-the-art language models on this benchmark, highlighting their strengths and weaknesses in handling complexity requirements. In particular, token-space reasoning models are unrivaled in code generation but not in complexity understanding, hinting that they may not generalize well to tasks for which no reward was given at training time.
Abstract（参考訳）: 我々は、時間と空間の複雑さを指定したコードを理解し、生成する言語モデルの能力を評価するために設計された、新しいコーディングベンチマークであるBigO(Bench)を紹介する。このベンチマークは、しばしば計算複雑性に制約されたコードを理解し、生成するモデルの能力を見落としている現在の評価のギャップに対処する。 BigO(Bench)には、人間やLLM生成ソリューションを含むプロファイリング測定から、任意のPython関数のアルゴリズム上の複雑さを推測するツールが含まれている。 BigO(Bench)には3,105のコーディング問題と1,190,250のソリューションが含まれている。このベンチマークで、複数の最先端言語モデルを評価し、複雑さの要求に対処する際の長所と短所を強調した。特に、トークン空間推論モデルは、コード生成では未熟だが、複雑さの理解では不十分であり、トレーニング時に報酬が与えられないタスクにうまく一般化できない可能性があることを示唆している。

関連論文リスト

Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文参考訳（メタデータ） (2025-05-02T20:03:35Z)
PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving [50.50405233978406]
我々は、OVPG(Open-ended Visual Puzzle Generation)という、完全に動的なマルチモーダル評価フレームワークを提案する。 OVPGは、パズル解決タスクにおいて、新しく、多様性があり、検証可能な評価データを自動的に生成することを目的としている。 OVPG上に構築されたPuzzleBenchは11,840のVQAサンプルからなる動的でスケーラブルなベンチマークである。
論文参考訳（メタデータ） (2025-04-15T05:29:31Z)
EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
抽象構文木(AST)にヒントを得た新しい特徴木ベース合成フレームワークを提案する。コードの構文構造をキャプチャするASTとは異なり、私たちのフレームワークはコード要素間のセマンティックな関係をモデル化します。広く使われているベースモデルを微調整してEpiCoderシリーズを作成し、関数レベルとファイルレベルの両方で最先端のパフォーマンスを実現しました。
論文参考訳（メタデータ） (2025-01-08T18:58:15Z)
Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文参考訳（メタデータ） (2024-05-24T04:35:13Z)
MapCoder: Multi-Agent Code Generation for Competitive Problem Solving [3.3856216159724983]
マルチエージェントプロンプトを利用したコード生成タスクに新たなアプローチを導入する。私たちのフレームワークであるMapCoderは、プログラム合成の段階をエミュレートするために設計された4つのLLMエージェントで構成されています。我々の手法は、様々なプログラミング言語で一貫して優れた性能を提供する。
論文参考訳（メタデータ） (2024-05-18T22:10:15Z)
CoCoST: Automatic Complex Code Generation with Online Searching and Correctness Testing [51.00909683314142]
大規模言語モデルは、自然言語記述を実行可能なコードに変換することによって、コード生成能力に革命をもたらした。 CoCoSTフレームワークは、オンライン検索によって複雑なコード生成を強化する。 CoCoSTはDS-1000とClassEvalデータセットの厳密な実験によって検証される。
論文参考訳（メタデータ） (2024-03-20T13:33:55Z)
SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文参考訳（メタデータ） (2024-01-26T09:23:27Z)
CodeComplex: Dataset for Worst-Case Time Complexity Prediction [7.974618854858136]
コード時間の複雑さ予測には、変数の入力範囲や条件ループなど、様々な複雑な要素が含まれる。現在のベンチマークは、限られたデータ、言語制約、不十分なラベリングのために厳格な評価を提供していない。コード時間の複雑さを予測する上で,LSMの推論能力を評価するために設計された最初の堅牢で広範なデータセットであるCodeComplexを紹介した。
論文参考訳（メタデータ） (2024-01-16T06:54:44Z)
Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文参考訳（メタデータ） (2023-09-17T04:18:39Z)
When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文参考訳（メタデータ） (2023-08-29T17:22:39Z)
TASTY: A Transformer based Approach to Space and Time complexity [0.4724825031148411]
コードベース言語モデル(LM)は、ソフトウェア工学の分野で非常に有望な結果を示している。複数の言語にまたがるコードスニペットのラベル付きデータセットを作成します。私たちは、コードから空間の複雑さを見つけるのにLMを使うことを提案しています。
論文参考訳（メタデータ） (2023-05-06T03:37:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。