論文の概要: Ecosystem of Large Language Models for Code
- arxiv url: http://arxiv.org/abs/2405.16746v2
- Date: Sun, 29 Sep 2024 06:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:00:56.828843
- Title: Ecosystem of Large Language Models for Code
- Title(参考訳): コードのための大規模言語モデルの生態系
- Authors: Zhou Yang, Jieke Shi, Premkumar Devanbu, David Lo,
- Abstract要約: 本稿では,コードモデルエコシステムの先駆的分析を紹介する。
まず、人気があり影響力のあるデータセット、モデル、コントリビュータを特定します。
最も人気のある3つの再利用タイプは、微調整、アーキテクチャ共有、量子化である。
- 参考スコア(独自算出の注目度): 7.7454423388704745
- License:
- Abstract: The availability of vast amounts of publicly accessible data of source code and the advances in modern language models, coupled with increasing computational resources, have led to a remarkable surge in the development of large language models for code (LLM4Code, for short). The interaction between code datasets and models gives rise to a complex ecosystem characterized by intricate dependencies that are worth studying. This paper introduces a pioneering analysis of the code model ecosystem. Utilizing Hugging Face -- the premier hub for transformer-based models -- as our primary source, we curate a list of datasets and models that are manually confirmed to be relevant to software engineering. By analyzing the ecosystem, we first identify the popular and influential datasets, models, and contributors. The popularity is quantified by various metrics, including the number of downloads, the number of likes, the number of reuses, etc. The ecosystem follows a power-law distribution, indicating that users prefer widely recognized models and datasets. Then, we manually categorize how models in the ecosystem are reused into nine categories, analyzing prevalent model reuse practices. The top 3 most popular reuse types are fine-tuning, architecture sharing, and quantization. We also explore the practices surrounding the publication of LLM4Code, specifically focusing on documentation practice and license selection. We find that the documentation in the ecosystem contains less information than that in general artificial intelligence (AI)-related repositories hosted on GitHub. Additionally, the license usage is also different from other software repositories. Models in the ecosystem adopt some AI-specific licenses, e.g., RAIL (Responsible AI Licenses) and AI model license agreement.
- Abstract(参考訳): ソースコードの大量の公開アクセスデータの提供と、現代の言語モデルの進歩は、計算資源の増大とともに、コードのための大規模言語モデル(LLM4Code、略してLLM4Code)の開発を著しく加速させた。
コードデータセットとモデル間のインタラクションは、研究に値する複雑な依存関係を特徴とする複雑なエコシステムを生み出します。
本稿では,コードモデルエコシステムの先駆的分析を紹介する。
トランスフォーマーベースのモデルのための主要なハブであるHugging Faceを主要なソースとして利用して、手作業でソフトウェアエンジニアリングに関連することが確認されたデータセットとモデルのリストをキュレートします。
エコシステムを分析して、まず人気のある、影響力のあるデータセット、モデル、コントリビュータを特定します。
人気度は、ダウンロード数、いいね!の回数、再利用の数など、さまざまな指標によって定量化されている。
このエコシステムは、ユーザーが広く認識されているモデルとデータセットを好むことを示す、強力な欠陥分布に従っている。
そして、このエコシステムにおけるモデルの再利用方法を9つのカテゴリに分類し、一般的なモデルの再利用プラクティスを分析します。
最も人気のある3つの再利用タイプは、微調整、アーキテクチャ共有、量子化である。
LLM4Codeの公開を取り巻くプラクティスについても,特にドキュメントの実践とライセンス選択に注目して検討する。
エコシステムのドキュメントには、GitHubにホストされている汎用人工知能(AI)関連リポジトリよりも、情報が少ないことが分かりました。
さらに、ライセンスの使用法は他のソフトウェアリポジトリとは異なる。
エコシステム内のモデルには、例えば、RAIL(Responsible AI Licenses)やAIモデルライセンス契約といった、AI固有のライセンスが採用されている。
関連論文リスト
- EduNLP: Towards a Unified and Modularized Library for Educational Resources [78.8523961816045]
我々はEduNLPという,統一された,モジュール化された,広範なライブラリを紹介し,教育資源の理解に焦点をあてる。
このライブラリでは、ワークフロー全体を4つのキーモジュールに分離し、データ構成、処理、モデル実装、モデル評価など、一貫したインターフェースを提供します。
現在のバージョンでは、主に4つのカテゴリから10の典型的なモデルを提供し、教育領域における5つのダウンストリーム評価タスクを、ユーザの使用に対して8つの被験者に提供します。
論文 参考訳(メタデータ) (2024-06-03T12:45:40Z) - Model Callers for Transforming Predictive and Generative AI Applications [2.7195102129095003]
モデル呼び出し(model caller)と呼ばれる新しいソフトウェア抽象化を導入する。
モデル呼び出しは、AIとMLモデル呼び出しの仲介役として機能する。
我々は、モデル呼び出しのためのPythonライブラリのプロトタイプをリリースした。
論文 参考訳(メタデータ) (2024-04-17T12:21:06Z) - A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys) [57.30228361181045]
この調査は、ジェネレーティブモデル(Gen-RecSys)を用いたレコメンデーションシステムにおける重要な進歩を結びつける。
対話駆動生成モデル、自然言語レコメンデーションのための大規模言語モデル(LLM)とテキストデータの使用、RSにおける画像やビデオの生成と処理のためのマルチモーダルモデルの統合。
我々の研究は、Gen-RecSysの影響と害を評価するために必要なパラダイムを強調し、オープンな課題を特定します。
論文 参考訳(メタデータ) (2024-03-31T06:57:57Z) - Breaking the Barrier: Utilizing Large Language Models for Industrial
Recommendation Systems through an Inferential Knowledge Graph [19.201697767418597]
大規模言語モデルに基づく補完的知識強化推薦システム(LLM-KERec)を提案する。
アイテムとユーザ情報から統一された概念用語を抽出し、ユーザ意図の遷移をキャプチャし、新しいアイテムに適応する。
3つの業界データセットで実施された大規模な実験は、既存のアプローチと比較して、我々のモデルの大幅な性能向上を実証している。
論文 参考訳(メタデータ) (2024-02-21T12:22:01Z) - Generative AI for Software Metadata: Overview of the Information
Retrieval in Software Engineering Track at FIRE 2023 [18.616716369775883]
Information Retrieval in Software Engineering (IRSE)トラックは、コードコメントの自動評価ソリューションの開発を目的としている。
データセットは9048のコードコメントと、オープンソースCベースのプロジェクトから抽出されたコードスニペットペアで構成されている。
大きな言語モデルから生成されたラベルは、予測モデルのバイアスを増加させるが、過度に適合しない結果をもたらす。
論文 参考訳(メタデータ) (2023-10-27T14:13:23Z) - An Exploratory Literature Study on Sharing and Energy Use of Language
Models for Source Code [1.0742675209112622]
本研究では,ソフトウェア工学タスクのための言語モデルを訓練した出版物が,ソースコードと訓練されたアーティファクトを共有しているかどうかを検討する。
494のユニークな出版物から,コード関連課題に対処するために言語モデルを用いた293の関連出版物を特定した。
ソフトウェアエンジニアリングタスクのソースコードモデルに関する現在の研究において、情報とアーティファクトの共有に欠陥があることが判明した。
論文 参考訳(メタデータ) (2023-07-05T17:13:00Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - Encoding Domain Expertise into Multilevel Models for Source Location [0.5872014229110215]
この研究は、システム群のモデル間の統計的相関と相互依存性をキャプチャする。
最も興味深いことに、基礎となる物理学の専門知識と知識は、システム、サブグループ、あるいは集団レベルでモデルに符号化することができる。
論文 参考訳(メタデータ) (2023-05-15T14:02:35Z) - A Survey of Knowledge Graph Reasoning on Graph Types: Static, Dynamic,
and Multimodal [57.8455911689554]
知識グラフ推論(KGR)は、知識グラフに基づくマイニング論理則に基づいて、既存の事実から新しい事実を推論することを目的としている。
質問応答やレコメンデーションシステムなど、多くのAIアプリケーションでKGを使うことに大きなメリットがあることが証明されている。
論文 参考訳(メタデータ) (2022-12-12T08:40:04Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。