Fugu-MT 論文翻訳(概要): InterCode: Standardizing and Benchmarking Interactive Coding with Execution Feedback

論文の概要: InterCode: Standardizing and Benchmarking Interactive Coding with Execution Feedback

arxiv url: http://arxiv.org/abs/2306.14898v1
Date: Mon, 26 Jun 2023 17:59:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-27 12:09:47.134923
Title: InterCode: Standardizing and Benchmarking Interactive Coding with Execution Feedback
Title（参考訳）: InterCode: 実行フィードバックによるインタラクティブコーディングの標準化とベンチマーク
Authors: John Yang, Akshara Prabhakar, Karthik Narasimhan, Shunyu Yao
Abstract要約: InterCodeは軽量でフレキシブルで使いやすいインタラクティブコーディングフレームワークである。私たちのフレームワークは、従来のseq2seqコーディングメソッドと互換性があります。 InterCodeは、コード理解と生成能力を向上するための挑戦的なベンチマークとして機能する。
参考スコア（独自算出の注目度）: 30.04642181565862
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans write code in a fundamentally interactive manner and rely on constant execution feedback to correct errors, resolve ambiguities, and decompose tasks. While LLMs have recently exhibited promising coding capabilities, current coding benchmarks mostly consider a static instruction-to-code sequence transduction process, which has the potential for error propagation and a disconnect between the generated code and its final execution environment. To address this gap, we introduce InterCode, a lightweight, flexible, and easy-to-use framework of interactive coding as a standard reinforcement learning (RL) environment, with code as actions and execution feedback as observations. Our framework is language and platform agnostic, uses self-contained Docker environments to provide safe and reproducible execution, and is compatible out-of-the-box with traditional seq2seq coding methods, while enabling the development of new methods for interactive code generation. We use InterCode to create two interactive code environments with Bash and SQL as action spaces, leveraging data from the static Spider and NL2Bash datasets. We demonstrate InterCode's viability as a testbed by evaluating multiple state-of-the-art LLMs configured with different prompting strategies such as ReAct and Plan & Solve. Our results showcase the benefits of interactive code generation and demonstrate that InterCode can serve as a challenging benchmark for advancing code understanding and generation capabilities. InterCode is designed to be easily extensible and can even be used to incorporate new tasks such as Capture the Flag, a popular coding puzzle that is inherently multi-step and involves multiple programming languages. Project site with code and data: https://intercode-benchmark.github.io
Abstract（参考訳）: 人間は基本的にインタラクティブな方法でコードを書き、エラーを修正し、曖昧さを解決し、タスクを分解するために一定の実行フィードバックに頼る。 LLMは最近、有望なコーディング機能を示したが、現在のコーディングベンチマークは、主に静的命令からコードへのシーケンスのトランスダクションプロセスを検討しており、エラーの伝播や生成されたコードと最終的な実行環境との切り離しが可能である。このギャップに対処するため、対話型コーディングの軽量でフレキシブルで使いやすいフレームワークであるInterCodeを標準強化学習(RL)環境として導入し、コードをアクションとして、実行フィードバックを観察する。私たちのフレームワークは言語とプラットフォームに依存しず、自己完結型のDocker環境を使用して安全で再現可能な実行を提供し、従来のseq2seqコーディングメソッドと互換性があり、インタラクティブなコード生成のための新しいメソッドの開発を可能にします。私たちはInterCodeを使って、静的スパイダーとNL2Bashデータセットのデータを活用して、BashとSQLをアクションスペースとして2つのインタラクティブなコード環境を作成しています。我々は、ReActやPlan & Solveといった様々なプロンプト戦略で構成された複数の最先端LLMを評価することで、InterCodeの生存性をテストベッドとして示す。その結果,インタラクティブなコード生成の利点が示され,コード理解と生成能力向上のための難解なベンチマークとしてインターコードの利用が期待できることを示した。 intercodeは簡単に拡張できるように設計されているが、capture the flagのような新しいタスクを組み込むこともできる。コードとデータを持つプロジェクトサイト: https://intercode-benchmark.github.io

関連論文リスト

TreeCoder: Systematic Exploration and Optimisation of Decoding and Constraints for LLM Code Generation [2.2940141855172036]
TreeCoderは、デコーディングを候補プログラムのツリー検索として表現する。 TreeCoderは、CodeLlama、Mistral、DeepSeekなどのオープンソースモデルの精度を一貫して改善する。
論文参考訳（メタデータ） (2025-11-27T09:59:39Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation [10.438717413104062]
大規模言語モデルの命令追従能力を評価するためのベンチマークであるベンチを紹介する。ベンチには、現実世界のソフトウェア開発要件に沿った9つの検証可能な命令が組み込まれています。ベンチを用いた9つの顕著なLCMの評価を行い, 実験結果から, 基本プログラミング能力と命令追従能力の相違が明らかとなった。
論文参考訳（メタデータ） (2025-03-05T09:47:02Z)
CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。 CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文参考訳（メタデータ） (2025-02-26T14:19:49Z)
ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文参考訳（メタデータ） (2024-12-16T17:14:35Z)
What can Large Language Models Capture about Code Functional Equivalence? [24.178831487657945]
SeqCoBenchは、コード-LLMがコード関数同値をキャプチャする方法を評価するベンチマークである。我々は,SeqCoBenchにおける意味論的に等価なプログラムと異なるプログラムのペアを識別できるかどうかを,最先端(Code-)LLMで評価する。
論文参考訳（メタデータ） (2024-08-20T11:19:06Z)
Executable Code Actions Elicit Better LLM Agents [76.95566120678787]
この研究は、Pythonコードを使用して、Large Language Model(LLM)エージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。 Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。 CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。
論文参考訳（メタデータ） (2024-02-01T21:38:58Z)
CodeScope: An Execution-based Multilingual Multitask Multidimensional Benchmark for Evaluating LLMs on Code Understanding and Generation [18.354576598908448]
LLM(Large Language Models)は、人間のプログラミング支援に優れた性能を発揮している。 LLMのコード理解と生成能力を評価するための既存のベンチマークは、厳しい制限に悩まされている。実行ベース,多言語,マルチタスク,多次元評価ベンチマークであるCodeScopeを紹介する。
論文参考訳（メタデータ） (2023-11-14T23:18:52Z)
LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文参考訳（メタデータ） (2023-06-26T17:59:24Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)
CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文参考訳（メタデータ） (2022-01-26T10:54:30Z)
Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning [18.354352985591305]
コード要約は、ソースコードスニペットが与えられた短い自然言語記述を生成し、コード検索は、自然言語クエリが与えられた関連するソースコードを取得する。最近の研究は、これらの2つのタスクを組み合わせてパフォーマンスを改善している。本稿では,新たなコード生成タスクを導入することによって,2つのタスクのエンド・ツー・エンド・モデルを提案する。
論文参考訳（メタデータ） (2020-02-24T12:26:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。