論文の概要: Exploring the Effectiveness of Abstract Syntax Tree Patterns for Algorithm Recognition
- arxiv url: http://arxiv.org/abs/2605.06098v1
- Date: Thu, 07 May 2026 12:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.758451
- Title: Exploring the Effectiveness of Abstract Syntax Tree Patterns for Algorithm Recognition
- Title(参考訳): 抽象構文木パターンのアルゴリズム認識への応用を探る
- Authors: Denis Neumüller, Florian Sihler, Raphael Straub, Matthias Tichy,
- Abstract要約: 本稿では,プログラムの抽象構文木に基づく手法が,アルゴリズムの自動認識にどの程度有効かを検討する。
アルゴリズムの重要な特徴をキャプチャし、抽象構文木上で検索パターンを表現するように設計されたドメイン固有言語。
プロトタイプを、Fibonacci、Bubble Sort、Binary Searchといったアルゴリズムを含むBigCloneEvalベンチマークのサブセットで評価する。
- 参考スコア(独自算出の注目度): 0.41998444721319217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automated recognition of algorithm implementations can support many software maintenance and re-engineering activities by providing knowledge about the concerns present in the code base. Moreover, recognizing inefficient algorithms like Bubble Sort and suggesting superior alternatives from a library can help in assessing and improving the quality of a system. Approaches from related work suffer from usability as well as scalability issues and their accuracy is not evaluated. In this paper, we investigate how well our approach based on the abstract syntax tree of a program performs for automatic algorithm recognition. To this end, we have implemented a prototype consisting of: A domain-specific language designed to capture the key features of an algorithm and used to express a search pattern on the abstract syntax tree, a matching algorithm to find these features, and an initial catalog of "ready to use" patterns. To create our search patterns we performed a web search using the algorithm name and described key features of the found reference implementations with our domain-specific language. We evaluate our prototype on a subset of the BigCloneEval benchmark containing algorithms like Fibonacci, Bubble Sort, and Binary Search. We achieve an average F1-score of 0.74 outperforming the large language model Codellama which attains 0.35. Additionally, we use multiple code clone detection tools as a baseline for comparison, achieving a recall of 0.62 while the best-performing tool reaches 0.20.
- Abstract(参考訳): アルゴリズム実装の自動認識は、コードベースに存在する関心事に関する知識を提供することで、多くのソフトウェア保守と再設計活動をサポートすることができる。
さらに、Bubble Sortのような非効率なアルゴリズムを認識し、ライブラリの優れた代替案を提案することは、システムの品質を評価し改善するのに役立ちます。
関連する作業からのアプローチは、ユーザビリティとスケーラビリティの問題に悩まされ、その正確性は評価されない。
本稿では,プログラムの抽象構文木に基づく手法が,アルゴリズムの自動認識にどの程度有効かを検討する。
この目的のために我々は,アルゴリズムの重要な特徴を捉え,抽象構文木上で検索パターンを表現するために使用されるドメイン固有言語,これらの特徴を見つけるためのマッチングアルゴリズム,および"使用可"パターンの初期カタログからなるプロトタイプを実装した。
検索パターンを作成するために,アルゴリズム名を用いたWeb検索を行い,ドメイン固有言語を用いた参照実装の主要な特徴について説明した。
プロトタイプを、Fibonacci、Bubble Sort、Binary Searchといったアルゴリズムを含むBigCloneEvalベンチマークのサブセットで評価する。
平均F1スコアは0.74で、大きな言語モデルであるCodellamaより優れており、0.35に達しています。
さらに、比較のためのベースラインとして複数のコードクローン検出ツールを使用し、最高のパフォーマンスツールが0.20に達する間、0.62のリコールを達成する。
関連論文リスト
- Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - A Metaheuristic Algorithm for Large Maximum Weight Independent Set
Problems [58.348679046591265]
ノード重み付きグラフが与えられたとき、ノード重みが最大となる独立した(相互に非隣接な)ノードの集合を見つける。
このアプリケーションで放送されるグラフの中には、数十万のノードと数億のエッジを持つ大きなものもあります。
我々は,不規則なランダム化適応検索フレームワークにおいてメタヒューリスティックな新しい局所探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-03-28T21:34:16Z) - Generative and reproducible benchmarks for comprehensive evaluation of
machine learning classifiers [6.605210393590192]
Diverse and GENerative ML Benchmark (DIGEN)は、機械学習アルゴリズムのベンチマークのための合成データセットの集合である。
詳細なドキュメンテーションと分析を備えたリソースはオープンソースであり、GitHubで公開されている。
論文 参考訳(メタデータ) (2021-07-14T03:58:02Z) - A Framework and Benchmarking Study for Counterfactual Generating Methods
on Tabular Data [0.0]
カウンターファクトな説明は、機械学習の予測を説明する効果的な方法と見なされる。
このような説明を導き出そうとするアルゴリズムは、すでに数十ある。
ベンチマーク研究とフレームワークは、実践者がどのテクニックとビルディングブロックが最も適しているかを決定するのに役立ちます。
論文 参考訳(メタデータ) (2021-07-09T21:06:03Z) - Efficient Relation-aware Scoring Function Search for Knowledge Graph
Embedding [37.24099392064309]
タスク対応スコアリング関数を設計するための知識グラフにAutoML技術が導入されている。
しかし、検索されたスコアリング関数の有効性は、まだ所望ほど良くありません。
本稿では,スーパーネットとして空間を符号化し,スーパーネットをワンショットで探索する効率的な代替最小化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-22T06:05:13Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - Semantic Scaffolds for Pseudocode-to-Code Generation [47.09844589656143]
プログラムの高レベルな意味的・統語的構成を表す軽量な構造である意味的足場に基づくプログラム生成手法を提案する。
推論中にセマンティックスキャフォールドを使用することで、従来の最先端技術に比べて、トップ100の精度が10%向上する。
論文 参考訳(メタデータ) (2020-05-12T17:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。