論文の概要: Nirjas: An open source framework for extracting metadata from the source code
- arxiv url: http://arxiv.org/abs/2409.14609v1
- Date: Sun, 22 Sep 2024 22:09:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 21:57:16.599942
- Title: Nirjas: An open source framework for extracting metadata from the source code
- Title(参考訳): Nirjas: ソースコードからメタデータを抽出するオープンソースフレームワーク
- Authors: Ayush Bhardwaj, Sahil, Kaushlendra Pratap, Gaurav Mishra,
- Abstract要約: メタデータとコメントはどんなソフトウェア開発プロセスにおいても重要な要素です。
我々はPythonベースのオープンソースフレームワークであるNirjasを紹介し、構造化された方法でメタデータを抽出するのに役立つ。
- 参考スコア(独自算出の注目度): 3.9955598032275925
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Metadata and comments are critical elements of any software development process. In this paper, we explain how metadata and comments in source code can play an essential role in comprehending software. We introduce a Python-based open-source framework, Nirjas, which helps in extracting this metadata in a structured manner. Various syntaxes, types, and widely accepted conventions exist for adding comments in source files of different programming languages. Edge cases can create noise in extraction, for which we use Regex to accurately retrieve metadata. Non-Regex methods can give results but often miss accuracy and noise separation. Nirjas also separates different types of comments, source code, and provides details about those comments, such as line number, file name, language used, total SLOC, etc. Nirjas is a standalone Python framework/library and can be easily installed via source or pip (the Python package installer). Nirjas was initially created as part of a Google Summer of Code project and is currently developed and maintained under the FOSSology organization.
- Abstract(参考訳): メタデータとコメントはどんなソフトウェア開発プロセスにおいても重要な要素です。
本稿では,ソースコードのメタデータやコメントが,ソフトウェアを理解する上で重要な役割を担っているかを説明する。
我々はPythonベースのオープンソースフレームワークであるNirjasを紹介し、構造化された方法でメタデータを抽出するのに役立つ。
様々な構文、型、広く受け入れられている規約は、異なるプログラミング言語のソースファイルにコメントを追加するために存在する。
エッジケースは抽出時にノイズを発生させ、メタデータを正確に取得するためにRegexを使用します。
非Regex法は結果を与えるが、しばしば精度とノイズの分離を見逃す。
Nirjasはまた、異なるタイプのコメント、ソースコードを分離し、行番号、ファイル名、使用される言語、合計SLOCなど、それらのコメントの詳細を提供する。
NirjasはスタンドアロンのPythonフレームワーク/ライブラリで、ソースまたはpip(Pythonパッケージインストーラ)経由で簡単にインストールできる。
Nirjasは最初、Google Summer of Codeプロジェクトの一部として開発され、現在はFOSSology組織の下で開発、維持されている。
関連論文リスト
- Automatic Generation of Python Programs Using Context-Free Grammars [0.1227734309612871]
TinyPy Generatorは、文脈自由文法を使ってランダムなPythonプログラムを生成するツールである。
私たちのシステムは、さまざまなレベルの複雑さを持つコードを生成するために、カスタムプロダクションルールを使用します。
TinyPy Generatorは機械学習の分野で有用であり、Python言語モデルをトレーニングするための大量のPythonコードを生成することができる。
論文 参考訳(メタデータ) (2024-03-11T08:25:52Z) - Revisiting File Context for Source Code Summarization [2.85386288555414]
典型的なユースケースは、APIドキュメントで使用するサブルーチンの短い要約を生成することだ。
コード要約に関する現在の研究の核心はエンコーダ・デコーダ・ニューラルアーキテクチャである。
本稿では,コード要約における「ファイルコンテキスト」の考え方を再考する。
論文 参考訳(メタデータ) (2023-09-05T15:44:46Z) - Causal-learn: Causal Discovery in Python [53.17423883919072]
因果発見は、観測データから因果関係を明らかにすることを目的としている。
$textitcausal-learn$は因果発見のためのオープンソースのPythonライブラリである。
論文 参考訳(メタデータ) (2023-07-31T05:00:35Z) - Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。
解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。
実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文 参考訳(メタデータ) (2022-10-06T12:55:17Z) - Preprocessing Source Code Comments for Linguistic Models [0.0]
コメントはソースコードの重要な部分であり、ドキュメントの主要なソースです。
本稿では、GitHubの840の最も人気のあるオープンソースプロジェクトとSriLabデータセットの8422のプロジェクトから引き出されたPythonコメントの内容と品質について検討する。
論文 参考訳(メタデータ) (2022-08-23T23:44:09Z) - DocCoder: Generating Code by Retrieving and Reading Docs [87.88474546826913]
コードマニュアルとドキュメントを明示的に活用するアプローチであるDocCoderを紹介します。
我々のアプローチは一般的に、どんなプログラミング言語にも適用でき、基礎となるニューラルモデルとは無関係です。
論文 参考訳(メタデータ) (2022-07-13T06:47:51Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - PyHHMM: A Python Library for Heterogeneous Hidden Markov Models [63.01207205641885]
PyHHMM は Heterogeneous-Hidden Markov Models (HHMM) のオブジェクト指向Python実装である。
PyHHMMは、異種観測モデル、データ推論の欠如、異なるモデルの順序選択基準、半教師付きトレーニングなど、同様のフレームワークではサポートされない機能を強調している。
PyHHMMは、numpy、scipy、scikit-learn、およびシーボーンPythonパッケージに依存しており、Apache-2.0ライセンスの下で配布されている。
論文 参考訳(メタデータ) (2022-01-12T07:32:36Z) - Long-Range Modeling of Source Code Files with eWASH: Extended Window
Access by Syntax Hierarchy [30.368963500809365]
ファイルレベルのコンテキスト全体を固定長ウィンドウに活用するためのアーキテクチャに依存しないアプローチを導入する。
本稿は,Python言語における自然言語とソースコードのコード生成タスクと共同翻訳について評価する。
論文 参考訳(メタデータ) (2021-09-17T23:11:57Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。