論文の概要: Scaling Automatic Extraction of Pseudocode
- arxiv url: http://arxiv.org/abs/2406.04635v1
- Date: Fri, 7 Jun 2024 04:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 15:29:23.655298
- Title: Scaling Automatic Extraction of Pseudocode
- Title(参考訳): 擬似コードのスケーリング自動抽出
- Authors: Levent Toksoz, Gang Tan, C. Lee Giles,
- Abstract要約: 学術論文の擬似コードは、そこで実装されたアルゴリズムを簡潔に表現する方法を提供する。
我々はarXiv論文から約32万の擬似コード例を抽出し,大規模な擬似コードコレクションを作成している。
- 参考スコア(独自算出の注目度): 19.09147464626829
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pseudocode in a scholarly paper provides a concise way to express the algorithms implemented therein. Pseudocode can also be thought of as an intermediary representation that helps bridge the gap between programming languages and natural languages. Having access to a large collection of pseudocode can provide various benefits ranging from enhancing algorithmic understanding, facilitating further algorithmic design, to empowering NLP or computer vision based models for tasks such as automated code generation and optical character recognition (OCR). We have created a large pseudocode collection by extracting nearly 320,000 pseudocode examples from arXiv papers. This process involved scanning over $2.2$ million scholarly papers, with 1,000 of them being manually inspected and labeled. Our approach encompasses an extraction mechanism tailored to optimize the coverage and a validation mechanism based on random sampling to check its accuracy and reliability, given the inherent heterogeneity of the collection. In addition, we offer insights into common pseudocode structures, supported by clustering and statistical analyses. Notably, these analyses indicate an exponential-like growth in the usage of pseudocodes, highlighting their increasing significance.
- Abstract(参考訳): 学術論文の擬似コードは、そこで実装されたアルゴリズムを簡潔に表現する方法を提供する。
Pseudocodeは、プログラミング言語と自然言語のギャップを埋める仲介者表現とも考えられる。
大量の擬似コードにアクセスすることで、アルゴリズム理解の強化、さらなるアルゴリズム設計の促進、自動コード生成や光学文字認識(OCR)といったタスクのためのNLPまたはコンピュータビジョンベースのモデルの拡張など、さまざまなメリットが得られる。
我々はarXiv論文から約32万の擬似コード例を抽出し,大規模な擬似コードコレクションを作成している。
このプロセスでは、220万ドル以上の学術論文をスキャンし、そのうち1,000件は手動で検査されラベル付けされた。
提案手法は,対象範囲を最適化するための抽出機構と,その精度と信頼性を確認するためのランダムサンプリングに基づく検証機構を包含する。
さらに,クラスタリングと統計解析によって支援された共通擬似符号構造に関する洞察を提供する。
特に、これらの分析は擬似符号の利用の指数関数的な成長を示し、その重要性の増大を浮き彫りにした。
関連論文リスト
- Sparse Autoencoders Enable Scalable and Reliable Circuit Identification in Language Models [0.0]
本稿では,大規模言語モデルにおける解釈可能な回路を発見するための,効率的かつ堅牢な手法を提案する。
本稿では, 慎重に設計した正負の例に対して, スパースオートエンコーダを訓練する。
本研究は,スケーラブルかつ効率的な機械的解釈性を実現するための離散スパースオートエンコーダの実現を示唆するものである。
論文 参考訳(メタデータ) (2024-05-21T06:26:10Z) - Prompt-based Code Completion via Multi-Retrieval Augmented Generation [15.233727939816388]
ProCCは、プロンプトエンジニアリングとコンテキスト多武装バンディットアルゴリズムを活用したコード補完フレームワークである。
ProCCは、収集したオープンソースベンチマークスイートにおいて、最先端のコード補完テクニックを8.6%上回ります。
ProCCはまた, プラグ・アンド・プレイ方式で微調整技術を増強し, 実験した微調整モデルよりも5.6%改善した。
論文 参考訳(メタデータ) (2024-05-13T07:56:15Z) - Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - Top-Down Synthesis for Library Learning [46.285220926554345]
コーパス誘導トップダウン合成は、プログラムのコーパスから共通機能をキャプチャするライブラリ関数を合成するメカニズムである。
本稿では,この手法をStitchと呼ばれるツールに実装し,DreamCoderの最先端の推論ライブラリ学習アルゴリズムに対して評価する。
論文 参考訳(メタデータ) (2022-11-29T21:57:42Z) - Quantum Sparse Coding [5.130440339897477]
我々はスパース符号化のための量子インスピレーション付きアルゴリズムを開発した。
量子コンピュータとイジングマシンの出現は、より正確な推定につながる可能性がある。
我々はLightrの量子インスパイアされたデジタルプラットフォーム上でシミュレーションデータを用いて数値実験を行う。
論文 参考訳(メタデータ) (2022-09-08T13:00:30Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。