論文の概要: A Language Model of Java Methods with Train/Test Deduplication
- arxiv url: http://arxiv.org/abs/2305.08286v1
- Date: Mon, 15 May 2023 00:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 16:26:43.326977
- Title: A Language Model of Java Methods with Train/Test Deduplication
- Title(参考訳): Train/TestによるJavaメソッドの言語モデル
- Authors: Chia-Yi Su, Aakash Bansal, Vijayanta Jain, Sepideh Ghanavati, Collin
Mcmillan
- Abstract要約: このツールデモでは、Javaソースコードの言語モデルの研究ツールキットが紹介されている。
対象読者には、Javaのサブルーチン、ステートメント、変数の粒度レベルでの問題を研究する研究者も含まれる。
- 参考スコア(独自算出の注目度): 5.529795221640365
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This tool demonstration presents a research toolkit for a language model of
Java source code. The target audience includes researchers studying problems at
the granularity level of subroutines, statements, or variables in Java. In
contrast to many existing language models, we prioritize features for
researchers including an open and easily-searchable training set, a held out
test set with different levels of deduplication from the training set,
infrastructure for deduplicating new examples, and an implementation platform
suitable for execution on equipment accessible to a relatively modest budget.
Our model is a GPT2-like architecture with 350m parameters. Our training set
includes 52m Java methods (9b tokens) and 13m StackOverflow threads (10.5b
tokens). To improve accessibility of research to more members of the community,
we limit local resource requirements to GPUs with 16GB video memory. We provide
a test set of held out Java methods that include descriptive comments,
including the entire Java projects for those methods. We also provide
deduplication tools using precomputed hash tables at various similarity
thresholds to help researchers ensure that their own test examples are not in
the training set. We make all our tools and data open source and available via
Huggingface and Github.
- Abstract(参考訳): このツールのデモンストレーションは、javaソースコードの言語モデルのための研究ツールキットを示します。
対象読者には、Javaのサブルーチン、ステートメント、変数の粒度レベルでの問題を研究する研究者も含まれる。
既存の多くの言語モデルとは対照的に、オープンで調査が容易なトレーニングセット、トレーニングセットと異なるレベルの重複レベルを持つテストセット、新しいサンプルを分離するためのインフラ、比較的控えめな予算でアクセス可能な機器上での実行に適した実装プラットフォームなど、研究者の機能を優先する。
我々のモデルは350mパラメータを持つGPT2のようなアーキテクチャである。
トレーニングセットには52mのJavaメソッド(9bトークン)と13mのStackOverflowスレッド(10.5bトークン)が含まれています。
コミュニティのより多くのメンバに対する研究のアクセシビリティ向上のために、ローカルリソースの要件を16GBのビデオメモリを備えたGPUに制限します。
これらのメソッドのJavaプロジェクト全体を含む記述的なコメントを含むJavaメソッドのテストセットを提供します。
また,事前計算されたハッシュテーブルを様々な類似性閾値で使用して,研究者が自身のテスト例をトレーニングセットに含めないことを保証するための重複ツールも提供する。
私たちはすべてのツールとデータをオープンソースにし、hughingfaceとgithubから利用できます。
関連論文リスト
- Generating executable oracles to check conformance of client code to requirements of JDK Javadocs using LLMs [21.06722050714324]
本稿では,広く使用されているJavaライブラリ,例えば java.lang や java.util パッケージのクライアントに対するテストオーラクルの自動化に焦点を当てる。
大規模な言語モデルを、テストオラクル自動化のフレームワークに関する洞察を具現化するための技術として使用しています。
論文 参考訳(メタデータ) (2024-11-04T04:24:25Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Outside the Sandbox: A Study of Input/Output Methods in Java [0.0]
我々は、Java Standard Editionディストリビューションの1435のネイティブメソッドを、非I/OおよびI/O関連メソッドに手動で分類した。
その結果、実行されたメソッドの21%が直接あるいは間接的にI/Oネイティブと呼ばれることがわかった。
我々は、I/Oはツールデザイナにとって実行可能な選択肢ではないと結論付け、I/O関連メタデータとソースコードの統合を提案する。
論文 参考訳(メタデータ) (2023-06-20T20:54:02Z) - Test-Time Training on Nearest Neighbors for Large Language Models [25.365366617508663]
Pileデータセットのテキスト埋め込みに基づく大規模分散インデックスを構築する。
テスト入力毎に,本システムは隣人を検索し,テキスト上でモデルを微調整する。
驚くべきことに、20以上の言語モデリングタスクにおいて、20人程度の隣人の検索とトレーニングが大幅にパフォーマンスを向上します。
論文 参考訳(メタデータ) (2023-05-29T08:03:28Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Scaling Expert Language Models with Unsupervised Domain Discovery [107.08940500543447]
本稿では,任意のテキストコーパス上で,大規模でスパースな言語モデルを非同期に訓練する,シンプルだが効果的な手法を提案する。
提案手法では,コーパスを関連文書の集合に集約し,各クラスタ上で個別の専門家言語モデルを訓練し,それらをスパースアンサンブルに組み合わせて推論を行う。
論文 参考訳(メタデータ) (2023-03-24T17:38:58Z) - Code Generation Tools (Almost) for Free? A Study of Few-Shot,
Pre-Trained Language Models on Code [13.15617135394116]
大規模で事前訓練された言語モデルによるショットラーニングは、コードに関する質問に答える強力な方法だ。
本稿では,現在最先端の事前訓練済みの言語モデルであるCodexがこの目的をどの程度果たすかを検討する。
論文 参考訳(メタデータ) (2022-06-02T23:15:42Z) - SAT-Based Extraction of Behavioural Models for Java Libraries with
Collections [0.087024326813104]
振る舞いモデルは、ソフトウェア検証、テスト、監視、公開などのための貴重なツールです。
ソフトウェア開発者によって提供されることはめったになく、ソースまたはコンパイルされたコードから抽出されなければならない。
これらのアプローチのほとんどは、コンパイルされたバイトコードの分析に依存します。
我々はJavaソースコードから有限状態マシン(FSM)の形式で振る舞いモデルを取り出して、取得したFSMがソフトウェア開発者によって容易に理解できるようにしたいと思っています。
論文 参考訳(メタデータ) (2022-05-30T17:27:13Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。