論文の概要: InterCode: Standardizing and Benchmarking Interactive Coding with
Execution Feedback
- arxiv url: http://arxiv.org/abs/2306.14898v2
- Date: Tue, 27 Jun 2023 01:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 10:10:39.463835
- Title: InterCode: Standardizing and Benchmarking Interactive Coding with
Execution Feedback
- Title(参考訳): InterCode: 実行フィードバックによるインタラクティブコーディングの標準化とベンチマーク
- Authors: John Yang, Akshara Prabhakar, Karthik Narasimhan, Shunyu Yao
- Abstract要約: InterCodeは軽量でフレキシブルで使いやすいインタラクティブコーディングフレームワークである。
私たちのフレームワークは、従来のseq2seqコーディングメソッドと互換性があります。
InterCodeは、コード理解と生成能力を向上するための挑戦的なベンチマークとして機能する。
- 参考スコア(独自算出の注目度): 30.04642181565862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans write code in a fundamentally interactive manner and rely on constant
execution feedback to correct errors, resolve ambiguities, and decompose tasks.
While LLMs have recently exhibited promising coding capabilities, current
coding benchmarks mostly consider a static instruction-to-code sequence
transduction process, which has the potential for error propagation and a
disconnect between the generated code and its final execution environment. To
address this gap, we introduce InterCode, a lightweight, flexible, and
easy-to-use framework of interactive coding as a standard reinforcement
learning (RL) environment, with code as actions and execution feedback as
observations. Our framework is language and platform agnostic, uses
self-contained Docker environments to provide safe and reproducible execution,
and is compatible out-of-the-box with traditional seq2seq coding methods, while
enabling the development of new methods for interactive code generation. We use
InterCode to create two interactive code environments with Bash and SQL as
action spaces, leveraging data from the static Spider and NL2Bash datasets. We
demonstrate InterCode's viability as a testbed by evaluating multiple
state-of-the-art LLMs configured with different prompting strategies such as
ReAct and Plan & Solve. Our results showcase the benefits of interactive code
generation and demonstrate that InterCode can serve as a challenging benchmark
for advancing code understanding and generation capabilities. InterCode is
designed to be easily extensible and can even be used to incorporate new tasks
such as Capture the Flag, a popular coding puzzle that is inherently multi-step
and involves multiple programming languages. Project site with code and data:
https://intercode-benchmark.github.io
- Abstract(参考訳): 人間は基本的にインタラクティブな方法でコードを書き、エラーを修正し、曖昧さを解決し、タスクを分解するために一定の実行フィードバックに頼る。
LLMは最近、有望なコーディング機能を示したが、現在のコーディングベンチマークは、主に静的命令からコードへのシーケンスのトランスダクションプロセスを検討しており、エラーの伝播や生成されたコードと最終的な実行環境との切り離しが可能である。
このギャップに対処するため、対話型コーディングの軽量でフレキシブルで使いやすいフレームワークであるInterCodeを標準強化学習(RL)環境として導入し、コードをアクションとして、実行フィードバックを観察する。
私たちのフレームワークは言語とプラットフォームに依存しず、自己完結型のDocker環境を使用して安全で再現可能な実行を提供し、従来のseq2seqコーディングメソッドと互換性があり、インタラクティブなコード生成のための新しいメソッドの開発を可能にします。
私たちはInterCodeを使って、静的スパイダーとNL2Bashデータセットのデータを活用して、BashとSQLをアクションスペースとして2つのインタラクティブなコード環境を作成しています。
我々は、ReActやPlan & Solveといった様々なプロンプト戦略で構成された複数の最先端LLMを評価することで、InterCodeの生存性をテストベッドとして示す。
その結果,インタラクティブなコード生成の利点が示され,コード理解と生成能力向上のための難解なベンチマークとしてインターコードの利用が期待できることを示した。
intercodeは簡単に拡張できるように設計されているが、capture the flagのような新しいタスクを組み込むこともできる。
コードとデータを持つプロジェクトサイト: https://intercode-benchmark.github.io
関連論文リスト
- What can Large Language Models Capture about Code Functional Equivalence? [24.178831487657945]
SeqCoBenchは、コード-LLMがコード関数同値をキャプチャする方法を評価するベンチマークである。
我々は,SeqCoBenchにおける意味論的に等価なプログラムと異なるプログラムのペアを識別できるかどうかを,最先端(Code-)LLMで評価する。
論文 参考訳(メタデータ) (2024-08-20T11:19:06Z) - Executable Code Actions Elicit Better LLM Agents [76.95566120678787]
この研究は、Pythonコードを使用して、Large Language Model(LLM)エージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。
Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。
CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。
論文 参考訳(メタデータ) (2024-02-01T21:38:58Z) - CodeScope: An Execution-based Multilingual Multitask Multidimensional Benchmark for Evaluating LLMs on Code Understanding and Generation [18.354576598908448]
LLM(Large Language Models)は、人間のプログラミング支援に優れた性能を発揮している。
LLMのコード理解と生成能力を評価するための既存のベンチマークは、厳しい制限に悩まされている。
実行ベース,多言語,マルチタスク,多次元評価ベンチマークであるCodeScopeを紹介する。
論文 参考訳(メタデータ) (2023-11-14T23:18:52Z) - LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。
ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。
メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文 参考訳(メタデータ) (2023-06-26T17:59:24Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Leveraging Code Generation to Improve Code Retrieval and Summarization
via Dual Learning [18.354352985591305]
コード要約は、ソースコードスニペットが与えられた短い自然言語記述を生成し、コード検索は、自然言語クエリが与えられた関連するソースコードを取得する。
最近の研究は、これらの2つのタスクを組み合わせてパフォーマンスを改善している。
本稿では,新たなコード生成タスクを導入することによって,2つのタスクのエンド・ツー・エンド・モデルを提案する。
論文 参考訳(メタデータ) (2020-02-24T12:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。