論文の概要: BioCoder: A Benchmark for Bioinformatics Code Generation with Contextual
Pragmatic Knowledge
- arxiv url: http://arxiv.org/abs/2308.16458v4
- Date: Mon, 4 Dec 2023 11:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:34:54.378575
- Title: BioCoder: A Benchmark for Bioinformatics Code Generation with Contextual
Pragmatic Knowledge
- Title(参考訳): BioCoder: 文脈論的知識を用いたバイオインフォマティクスコード生成ベンチマーク
- Authors: Xiangru Tang, Bill Qian, Rick Gao, Jiakang Chen, Xinyun Chen, Mark
Gerstein
- Abstract要約: バイオインフォマティクス固有のコードを生成する際に,大規模言語モデル(LLM)を評価するために開発されたベンチマークであるBioCoderを提案する。
BioCoderは、フィールドの幅広い範囲にまたがって、ファイル間の依存関係、クラス宣言、グローバル変数をカバーする。
モデルの成功は、機能的な依存関係に対して、完全なコンテキストで長いプロンプトを許容できることを示します。
- 参考スコア(独自算出の注目度): 29.427854840949234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained large language models have significantly improved code
generation. As these models scale up, there is an increasing need for the
output to handle more intricate tasks and to be appropriately specialized to
particular domains. Here, we target bioinformatics due to the amount of
specialized domain knowledge, algorithms, and data operations this discipline
requires. We present BioCoder, a benchmark developed to evaluate large language
models (LLMs) in generating bioinformatics-specific code. BioCoder spans a
broad spectrum of the field and covers cross-file dependencies, class
declarations, and global variables. It incorporates 1026 Python functions and
1243 Java methods extracted from GitHub, along with 253 examples from the
Rosalind Project, all pertaining to bioinformatics. Using topic modeling we
show that overall coverage of the included code is representative of the full
spectrum of bioinformatics calculations. BioCoder incorporates a fuzz-testing
framework for evaluation. We have applied it to evaluate many models including
InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+,
GPT-3.5, and GPT-4. Furthermore, we finetuned StarCoder, demonstrating how our
dataset can effectively enhance the performance of LLMs on our benchmark (by
>15% in terms of Pass@K in certain prompt configurations and always >3%). The
results highlight two key aspects of successful models: (1) Successful models
accommodate a long prompt (> ~2600 tokens) with full context, for functional
dependencies. (2) They contain specific domain knowledge of bioinformatics,
beyond just general coding knowledge. This is evident from the performance gain
of GPT-3.5/4 compared to the smaller models on the benchmark (50% vs up to
~25%). Our dataset, benchmark, Docker images, and scripts required for testing
are all available at https://github.com/gersteinlab/biocoder.
- Abstract(参考訳): 事前訓練された大きな言語モデルはコード生成を大幅に改善した。
これらのモデルが拡大するにつれて、アウトプットがより複雑なタスクを処理し、特定のドメインに適切に特化する必要がある。
ここでは、この専門分野に必要な専門知識、アルゴリズム、データ操作の量により、バイオインフォマティクスを対象とする。
バイオインフォマティクス固有のコードを生成する際に,大規模言語モデル(LLM)を評価するために開発されたベンチマークであるBioCoderを提案する。
biocoderはフィールドの幅広いスペクトルにまたがり、クロスファイルの依存関係、クラス宣言、グローバル変数をカバーする。
その中には、GitHubから抽出された1026のPython関数と1243のJavaメソッドと、バイオインフォマティクスに関連するRosalindプロジェクトから253のサンプルが含まれている。
トピックモデリングを用いて、包含されたコード全体のカバレッジは、バイオインフォマティクス計算の完全なスペクトルを表していることを示す。
BioCoderは、評価のためのファズテストフレームワークを組み込んでいる。
InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+, GPT-3.5, GPT-4 など,多くのモデルの評価に採用しました。
さらに、StarCoderを微調整し、私たちのデータセットがベンチマーク上でLLMのパフォーマンスを効果的に向上する方法を実証しました(特定のプロンプト構成ではPass@Kで15%、常に3%)。
1) 成功したモデルは、機能的な依存関係のために、完全なコンテキストを持つ長いプロンプト(> ~2600トークン)を許容します。
2) バイオインフォマティクスの特定のドメイン知識は, 一般のコーディング知識以外にも含んでいる。
これはgpt-3.5/4がベンチマークのより小さいモデルと比較した場合(50%対25%)から明らかである。
テストに必要なデータセット、ベンチマーク、dockerイメージ、スクリプトはすべて、https://github.com/gersteinlab/biocoderで利用可能です。
関連論文リスト
- CodeShell Technical Report [23.741490720927068]
8Kコンテキスト長の基盤モデルであるCodeShell-Baseを提案する。
GitHubから1000億の高品質の事前トレーニングデータをキュレートしました。
高品質のデータから得られるCodeShell-Baseは、わずか500億のトークン(5エポック)でトレーニングした後、HumanevalのCodeLlamaを上回った
論文 参考訳(メタデータ) (2024-03-23T07:29:41Z) - StarCoder 2 and The Stack v2: The Next Generation [105.93298676368798]
私たちは3.3から4.3兆のトークンで3B、7B、15BパラメータでStarCoder2モデルをトレーニングします。
我々は、それらをCode LLMベンチマークの包括的なセットで徹底的に評価する。
私たちの大きなモデルであるStarCoder2-15Bは、同等の大きさの他のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-29T13:53:35Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。
ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。
メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文 参考訳(メタデータ) (2023-06-26T17:59:24Z) - TransCoder: Towards Unified Transferable Code Representation Learning Inspired by Human Skills [31.75121546422898]
本稿では,コード表現学習のためのTransCoderについて述べる。
我々は、メタラーナーとして調整可能なプレフィックスエンコーダを用いて、クロスタスクおよびクロス言語変換可能な知識をキャプチャする。
本手法は, 各種コード関連タスクの性能向上と相互強化の促進に寄与する。
論文 参考訳(メタデータ) (2023-05-23T06:59:22Z) - JEMMA: An Extensible Java Dataset for ML4Code Applications [34.76698017961728]
我々は、機械学習・フォー・ソース・コード(ML4Code)をターゲットにした大規模で多様な高品質なデータセットであるJEMMAを紹介した。
JEMMAの目標は、ソースコードモデルとタスクを試すためのビルディングブロックを提供することで、ML4Codeへの参入障壁を低くすることにあります。
JEMMAには、メタデータ、表現(コードトークン、AST、グラフなど)、いくつかのプロパティといった、かなり多くの事前処理された情報が含まれている。
論文 参考訳(メタデータ) (2022-12-18T17:04:14Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z) - CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding
and Generation [72.90209988513995]
CodeXGLUEは、プログラムの理解と生成のための機械学習研究を促進するためのベンチマークデータセットである。
CodeXGLUEには、14データセットにわたる10タスクのコレクションと、モデル評価と比較のためのプラットフォームが含まれている。
論文 参考訳(メタデータ) (2021-02-09T06:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。