論文の概要: LARCH: Large Language Model-based Automatic Readme Creation with
Heuristics
- arxiv url: http://arxiv.org/abs/2308.03099v1
- Date: Sun, 6 Aug 2023 12:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 16:39:36.582459
- Title: LARCH: Large Language Model-based Automatic Readme Creation with
Heuristics
- Title(参考訳): LARCH: ヒューリスティックスによる大規模言語モデルに基づく自動読解作成
- Authors: Yuta Koreeda, Terufumi Morishita, Osamu Imaichi, Yasuhiro Sogawa
- Abstract要約: 大規模言語モデル(LLM)は,リポジトリを表すコードフラグメントを識別できれば,一貫性のある,事実上正しい読み出しを生成することができることを示す。
LARCH (LLM-based Automatic Readme Creation with Heuristics) を開発した。
LARCHは、ほとんどのケースにおいて一貫性があり、事実上正しい読み出しを生成することができ、代表コードの識別に依存しないベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 9.831762463429149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Writing a readme is a crucial aspect of software development as it plays a
vital role in managing and reusing program code. Though it is a pain point for
many developers, automatically creating one remains a challenge even with the
recent advancements in large language models (LLMs), because it requires
generating abstract description from thousands of lines of code. In this demo
paper, we show that LLMs are capable of generating a coherent and factually
correct readmes if we can identify a code fragment that is representative of
the repository. Building upon this finding, we developed LARCH (LLM-based
Automatic Readme Creation with Heuristics) which leverages representative code
identification with heuristics and weak supervision. Through human and
automated evaluations, we illustrate that LARCH can generate coherent and
factually correct readmes in the majority of cases, outperforming a baseline
that does not rely on representative code identification. We have made LARCH
open-source and provided a cross-platform Visual Studio Code interface and
command-line interface, accessible at https://github.com/hitachi-nlp/larch . A
demo video showcasing LARCH's capabilities is available at
https://youtu.be/ZUKkh5ED-O4 .
- Abstract(参考訳): プログラムコードの管理と再利用において重要な役割を果たすので、読み書きはソフトウェア開発の重要な側面である。
多くの開発者にとっては痛点だが、数千行のコードから抽象的な記述を生成する必要があるため、最近の大規模言語モデル(llm)の進歩にもかかわらず、自動生成は依然として課題である。
本稿では,レポジトリを代表するコードフラグメントを識別できれば,LCMが一貫性があり,実際に正しい読み出しを生成することができることを示す。
そこで我々は,larch (llm-based automatic readme creation with heuristics) を開発した。
人的および自動的な評価を通じて、LARCHは、ほとんどのケースにおいて一貫性のある、事実上正しい読み出しを生成でき、代表的なコード識別に依存しないベースラインよりも優れていることを示す。
LARCHをオープンソースにし、クロスプラットフォームのVisual Studio Codeインターフェースとコマンドラインインターフェースを提供しました。
LARCHの機能を示すデモビデオはhttps://youtu.be/ZUKkh5ED-O4 で公開されている。
関連論文リスト
- Codellm-Devkit: A Framework for Contextualizing Code LLMs with Program Analysis Insights [9.414198519543564]
codellm-devkit (以下, CLDK') は,プログラム解析のプロセスを大幅に単純化したオープンソースライブラリである。
CLDKは開発者に対して直感的でユーザフレンドリなインターフェースを提供しています。
論文 参考訳(メタデータ) (2024-10-16T20:05:59Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - LILO: Learning Interpretable Libraries by Compressing and Documenting Code [71.55208585024198]
LILOは、反復的に合成、圧縮、文書化を行う、ニューロシンボリックなフレームワークである。
LILOは、LLM誘導プログラム合成と、Stitchから自動化された最近のアルゴリズムの進歩を組み合わせたものである。
LILOのシンセサイザーが学習した抽象化を解釈し、デプロイするのを手助けすることで、AutoDocがパフォーマンスを向上させることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T17:55:02Z) - AskIt: Unified Programming Interface for Programming with Large Language
Models [0.0]
大規模言語モデル(LLM)は創発能力として知られるユニークな現象を示し、多くのタスクにまたがって適応性を示す。
本稿では,LLM用に特別に設計されたドメイン固有言語であるAskItを紹介する。
50タスクにわたって、AskItは簡潔なプロンプトを生成し、ベンチマークよりも16.14パーセントのプロンプト長の削減を実現した。
論文 参考訳(メタデータ) (2023-08-29T21:44:27Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - StarCoder: may the source be with you! [79.93915935620798]
BigCodeコミュニティでは、StarCoderとStarCoderBaseを紹介している。
StarCoderBaseは、寛容にライセンスされたGitHubリポジトリの大規模なコレクションであるThe Stackからソースされた1兆のトークンに基づいてトレーニングされている。
論文 参考訳(メタデータ) (2023-05-09T08:16:42Z) - Sequence Model Design for Code Completion in the Modern IDE [3.4824234779710452]
本稿では,すべての有効なキーワードとスコープ内識別子を列挙する静的解析能力と,それらの上に確率分布を配置する言語モデルの能力を組み合わせた,トップk次トークンの予測手法を提案する。
我々のモデルは,文字レベルの入力表現とトークン出力を混合し,語彙外トークン(OOV)を有意に表現し,予測遅延を最小化する。
論文 参考訳(メタデータ) (2020-04-10T22:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。