論文の概要: Typhon: Automatic Recommendation of Relevant Code Cells in Jupyter Notebooks
- arxiv url: http://arxiv.org/abs/2405.09075v1
- Date: Wed, 15 May 2024 03:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 14:26:01.415368
- Title: Typhon: Automatic Recommendation of Relevant Code Cells in Jupyter Notebooks
- Title(参考訳): Typhon:Jupyterノートブックにおける関連コードセルの自動レコメンデーション
- Authors: Chaiyong Ragkhitwetsagul, Veerakit Prasertpol, Natanon Ritta, Paphon Sae-Wong, Thanapon Noraset, Morakot Choetkiertikul,
- Abstract要約: 本稿では,Jupyterノートブックのコードセルを自動的に推薦するTyphonを提案する。
Typhonは開発者のマークダウン記述セルをトークン化し、データベースから最もよく似たコードセルを探す。
我々は、KaggleコンペティションからJupyterノートブックのTyphonツールを評価し、そのアプローチが適度な精度でコードセルを推薦できることを発見した。
- 参考スコア(独自算出の注目度): 0.3122672716129843
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: At present, code recommendation tools have gained greater importance to many software developers in various areas of expertise. Having code recommendation tools has enabled better productivity and performance in developing the code in software and made it easier for developers to find code examples and learn from them. This paper proposes Typhon, an approach to automatically recommend relevant code cells in Jupyter notebooks. Typhon tokenizes developers' markdown description cells and looks for the most similar code cells from the database using text similarities such as the BM25 ranking function or CodeBERT, a machine-learning approach. Then, the algorithm computes the similarity distance between the tokenized query and markdown cells to return the most relevant code cells to the developers. We evaluated the Typhon tool on Jupyter notebooks from Kaggle competitions and found that the approach can recommend code cells with moderate accuracy. The approach and results in this paper can lead to further improvements in code cell recommendations in Jupyter notebooks.
- Abstract(参考訳): 現在、コードレコメンデーションツールは、様々な専門分野の多くのソフトウェア開発者にとってより重要になっている。
コードレコメンデーションツールを使用することで、ソフトウェアでコードを開発する際の生産性とパフォーマンスが向上し、開発者がコード例を見つけてそこから学ぶのが容易になった。
本稿では,Jupyterノートブックのコードセルを自動的に推薦するTyphonを提案する。
Typhonは開発者のマークダウン記述セルをトークン化し、BM25ランキング関数や機械学習アプローチのCodeBERTなどのテキスト類似性を使ってデータベースから最も類似したコードセルを探す。
そして、アルゴリズムはトークン化されたクエリとマークダウンセル間の類似度距離を計算し、最も関連性の高いコードセルを開発者に返す。
我々は、KaggleコンペティションからJupyterノートブックのTyphonツールを評価し、そのアプローチが適度な精度でコードセルを推薦できることを発見した。
本稿では,Jupyterノートブックのコードセルレコメンデーションの改善を図っている。
関連論文リスト
- Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - A Flexible Cell Classification for ML Projects in Jupyter Notebooks [0.21485350418225244]
本稿では,ルールベースと決定木分類器を組み合わせたハイブリッド分類手法により,より柔軟な細胞分類手法を提案する。
われわれはJupyLabelというツールで新しいフレキシブルな細胞分類手法を実装した。
論文 参考訳(メタデータ) (2024-03-12T11:50:47Z) - Unlocking Insights: Semantic Search in Jupyter Notebooks [1.320904960556043]
意味探索能力を高めるために,大規模言語モデルの応用について検討する。
我々の目的は、図や表、関連する関数やメソッド、その他の関連する情報など、生成された出力を取得することである。
本稿では,ノートの全内容の総合的なセマンティック理解を実現するセマンティック検索フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-02-20T18:49:41Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。
人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。
CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-12-20T23:49:37Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - DeSkew-LSH based Code-to-Code Recommendation Engine [3.7011129410662558]
ソースコード上の機械学習のための新しいコード・ツー・コードレコメンデーションエンジンであるemphSenatusを紹介する。
SenatusのコアとなるemphDe-Skew LSHは、ローカリティに敏感なハッシュアルゴリズムで、高速(サブ線形時間)検索のためにデータをインデックスする。
コード・ツー・コード・レコメンデーションのタスクにおいて、Senatusはパフォーマンスを6.7%向上し、クエリ時間16xはFacebook Aromaよりも高速であることを示す。
論文 参考訳(メタデータ) (2021-11-05T16:56:28Z) - HAConvGNN: Hierarchical Attention Based Convolutional Graph Neural
Network for Code Documentation Generation in Jupyter Notebooks [33.37494243822309]
Seq2Seqネットワークを強化するための階層型注意ベースのConvGNNコンポーネントを提案する。
Kaggleノートブックでデータセットを構築し、モデル(HAConvGNN)をベースラインモデルに対して評価します。
論文 参考訳(メタデータ) (2021-03-31T22:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。