論文の概要: A Unified Active Learning Framework for Annotating Graph Data with
Application to Software Source Code Performance Prediction
- arxiv url: http://arxiv.org/abs/2304.13032v2
- Date: Wed, 20 Sep 2023 11:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 22:31:11.818257
- Title: A Unified Active Learning Framework for Annotating Graph Data with
Application to Software Source Code Performance Prediction
- Title(参考訳): グラフデータアノテートのための統合アクティブラーニングフレームワークとソフトウェアソースコード性能予測への応用
- Authors: Peter Samoaa, Linus Aronsson, Antonio Longa, Philipp Leitner, Morteza
Haghir Chehreghani
- Abstract要約: ソフトウェアの性能予測を専門とする一貫したアクティブラーニングフレームワークを開発した。
能動的・受動的学習に異なるレベルの情報を用いることが与える影響について検討する。
我々のアプローチは、異なるソフトウェアパフォーマンス予測のためのAIモデルへの投資を改善することを目的としています。
- 参考スコア(独自算出の注目度): 4.572330678291241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most machine learning and data analytics applications, including performance
engineering in software systems, require a large number of annotations and
labelled data, which might not be available in advance. Acquiring annotations
often requires significant time, effort, and computational resources, making it
challenging. We develop a unified active learning framework specializing in
software performance prediction to address this task. We begin by parsing the
source code to an Abstract Syntax Tree (AST) and augmenting it with data and
control flow edges. Then, we convert the tree representation of the source code
to a Flow Augmented-AST graph (FA-AST) representation. Based on the graph
representation, we construct various graph embeddings (unsupervised and
supervised) into a latent space. Given such an embedding, the framework becomes
task agnostic since active learning can be performed using any regression
method and query strategy suited for regression. Within this framework, we
investigate the impact of using different levels of information for active and
passive learning, e.g., partially available labels and unlabeled test data. Our
approach aims to improve the investment in AI models for different software
performance predictions (execution time) based on the structure of the source
code. Our real-world experiments reveal that respectable performance can be
achieved by querying labels for only a small subset of all the data.
- Abstract(参考訳): ソフトウェアシステムのパフォーマンスエンジニアリングを含む多くの機械学習およびデータ分析アプリケーションは、大量のアノテーションとラベル付きデータを必要とするが、事前には利用できない可能性がある。
アノテーションを取得するには、しばしばかなりの時間、労力、計算資源が必要であるため、難しい。
我々は,ソフトウェア性能予測を専門とする統合アクティブラーニングフレームワークを開発した。
まず、ソースコードを抽象構文木(ast)に解析し、データとフローエッジを制御することで拡張します。
次に、ソースコードのツリー表現をフロー拡張ASTグラフ(FA-AST)表現に変換する。
グラフ表現に基づいて、様々なグラフ埋め込み(教師なしおよび教師なし)を潜在空間に構築する。
このような埋め込みを前提として、回帰法や回帰に適したクエリ戦略を用いてアクティブな学習を行うことができるため、このフレームワークはタスクに依存しないものとなる。
このフレームワークでは、アクティブな学習や受動的学習、例えば部分的に利用可能なラベルやラベルのないテストデータに異なるレベルの情報を使用することが与える影響を調査します。
我々のアプローチは、ソースコードの構造に基づいて、異なるソフトウェアパフォーマンス予測(実行時間)のためのAIモデルへの投資を改善することを目的としている。
実世界の実験では、すべてのデータの小さなサブセットに対してラベルを問合せすることで、優れたパフォーマンスが達成できることがわかった。
関連論文リスト
- CONCORD: Towards a DSL for Configurable Graph Code Representation [3.756550107432323]
カスタマイズ可能なグラフ表現を構築するためのドメイン固有言語であるCONCORDを紹介する。
実例として,コードの臭い検出に有効であることを示す。
ConCORDは、研究者がカスタマイズ可能なグラフベースのコード表現を作成し、実験するのに役立つ。
論文 参考訳(メタデータ) (2024-01-31T16:16:48Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - Leveraging Structural Properties of Source Code Graphs for Just-In-Time
Bug Prediction [6.467090475885797]
グラフは関係データを理解するのに最もよく使われる表現の1つである。
本研究では,ソースコードのリレーショナル特性をグラフ形式で活用する手法を提案する。
論文 参考訳(メタデータ) (2022-01-25T07:20:47Z) - Precise Learning of Source Code Contextual Semantics via Hierarchical
Dependence Structure and Graph Attention Networks [28.212889828892664]
階層的な依存関係を組み込んだ新しいソースコードモデルを提案する。
本稿では,基本ブロックの構文構造,すなわち対応するASTをソースコードモデルに導入し,十分な情報を提供する。
その結果,本モデルではパラメータのスケールを50%削減し,プログラム分類タスクの精度を4%向上させることができた。
論文 参考訳(メタデータ) (2021-11-20T04:03:42Z) - Graph Contrastive Learning Automated [94.41860307845812]
グラフコントラスト学習(GraphCL)は、有望な表現学習性能とともに登場した。
GraphCLのヒンジがアドホックなデータ拡張に与える影響は、データセット毎に手動で選択する必要がある。
本稿では,グラフデータ上でGraphCLを実行する際に,データ拡張を自動的に,適応的に動的に選択する統合バイレベル最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-10T16:35:27Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z) - How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。
我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-03-31T16:03:22Z) - ProGraML: Graph-based Deep Learning for Program Optimization and
Analysis [16.520971531754018]
本稿では,機械学習のためのグラフベースのプログラム表現であるProGraMLを紹介する。
ProGraMLは平均94.0F1スコアを獲得し、最先端のアプローチを著しく上回っている。
そして、我々のアプローチを2つのハイレベルなタスク - 不均一なデバイスマッピングとプログラム分類 - に適用し、その両方で新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2020-03-23T20:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。