論文の概要: Multi-granular Software Annotation using File-level Weak Labelling
- arxiv url: http://arxiv.org/abs/2311.11607v1
- Date: Mon, 20 Nov 2023 08:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 19:29:32.902038
- Title: Multi-granular Software Annotation using File-level Weak Labelling
- Title(参考訳): ファイルレベルの弱ラベリングを用いたマルチグラニュラーソフトウェアアノテーション
- Authors: Cezar Sas, Andrea Capiluppi
- Abstract要約: 本稿では,弱いラベル付け手法と階層的アグリゲーションを用いたソースコードファイルのアノテート手法を提案する。
本手法がソフトウェアプロジェクトのマルチグラニュラアノテーションの実現に有効かどうかを評価する。
- 参考スコア(独自算出の注目度): 7.106986689736827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the most time-consuming tasks for developers is the comprehension of
new code bases. An effective approach to aid this process is to label source
code files with meaningful annotations, which can help developers understand
the content and functionality of a code base quicker. However, most existing
solutions for code annotation focus on project-level classification: manually
labelling individual files is time-consuming, error-prone and hard to scale.
The work presented in this paper aims to automate the annotation of files by
leveraging project-level labels; and using the file-level annotations to
annotate items at larger levels of granularity, for example, packages and a
whole project.
We propose a novel approach to annotate source code files using a weak
labelling approach and a subsequent hierarchical aggregation. We investigate
whether this approach is effective in achieving multi-granular annotations of
software projects, which can aid developers in understanding the content and
functionalities of a code base more quickly.
Our evaluation uses a combination of human assessment and automated metrics
to evaluate the annotations' quality. Our approach correctly annotated 50% of
files and more than 50\% of packages. Moreover, the information captured at the
file-level allowed us to identify, on average, three new relevant labels for
any given project.
We can conclude that the proposed approach is a convenient and promising way
to generate noisy (not precise) annotations for files. Furthermore,
hierarchical aggregation effectively preserves the information captured at
file-level, and it can be propagated to packages and the overall project
itself.
- Abstract(参考訳): 開発者にとって最も時間を要するタスクのひとつは、新しいコードベースの理解です。
このプロセスを支援する効果的なアプローチは、開発者がコードベースの内容や機能をより早く理解できるように、意味のあるアノテーションでソースコードファイルをラベル付けすることである。
しかし、コードアノテーションの既存のソリューションのほとんどは、プロジェクトレベルの分類に焦点を当てている。
本稿では,プロジェクトレベルのラベルを活用することで,ファイルのアノテーションを自動化することを目的とした。また,ファイルレベルのアノテーションを使って,パッケージやプロジェクト全体といった粒度の大きい項目に注釈を付ける。
本稿では,弱いラベル付け手法とその後の階層的アグリゲーションを用いたソースコードファイルのアノテート手法を提案する。
このアプローチがソフトウェアプロジェクトのマルチグラニュラアノテーションの実現に有効かどうかを考察し、開発者がコードベースの内容や機能をより迅速に理解できるようにする。
本評価では,人間評価と自動評価を組み合わせて,アノテーションの品質評価を行う。
当社のアプローチでは,50%のファイルと50\%以上のパッケージを正しくアノテートしています。
さらに、ファイルレベルでキャプチャされた情報は、プロジェクト毎に平均して3つの関連するラベルを識別することができました。
提案手法は、ファイルのノイズ(正確にない)アノテーションを生成するための便利で有望な方法であると結論付けることができる。
さらに階層的なアグリゲーションは、ファイルレベルで取得した情報を効果的に保存し、パッケージやプロジェクト自体に伝達することができる。
関連論文リスト
- Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - AutoFL: A Tool for Automatic Multi-granular Labelling of Software Repositories [6.0158981171030685]
AutoFLは、ソースコードからソフトウェアリポジトリを自動的にラベル付けするツールである。
textitfile、textitpackage、textitproject-levelを含む、複数の粒度のアノテーションを可能にする。
論文 参考訳(メタデータ) (2024-08-05T15:34:26Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Deep Active Learning with Noisy Oracle in Object Detection [5.5165579223151795]
ディープオブジェクト検出のためのラベルレビューモジュールを含む複合能動学習フレームワークを提案する。
アクティブなデータセットで部分的にノイズの多いアノテーションを修正するためにアノテーションの予算の一部を利用することで、モデルの性能が早期に向上することを示します。
本実験では,同一のアノテーション予算でラベルレビューを組み込むことで,最大4.5mAPポイントのオブジェクト検出性能の向上を実現した。
論文 参考訳(メタデータ) (2023-09-30T13:28:35Z) - Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification [19.592985329023733]
MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
論文 参考訳(メタデータ) (2023-09-24T04:12:52Z) - Multi-Label Knowledge Distillation [86.03990467785312]
本稿では,新しい多ラベル知識蒸留法を提案する。
一方、マルチラベル学習問題をバイナリ分類問題に分割することにより、ロジットからの情報的意味知識を利用する。
一方,ラベルワイド埋め込みの構造情報を活用することにより,学習した特徴表現の識別性を向上する。
論文 参考訳(メタデータ) (2023-08-12T03:19:08Z) - Visual Recognition by Request [111.94887516317735]
視覚認識のためのアノテーションと評価の新しいプロトコルを提案する。
すべてのターゲット(オブジェクト、部品など)を一度にアノテート/認識するためにラベルやアルゴリズムを必要とせず、代わりに多数の認識命令を発生させ、アルゴリズムは要求によってターゲットを認識する。
CPP と ADE20K という2つの混合注釈付きデータセットに対する認識システムの評価を行い,その有望な学習能力を部分的にラベル付けしたデータから示す。
論文 参考訳(メタデータ) (2022-07-28T16:55:11Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。
我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。
予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文 参考訳(メタデータ) (2021-12-15T13:14:58Z) - OPAD: An Optimized Policy-based Active Learning Framework for Document
Content Analysis [6.159771892460152]
文書のコンテンツ検出タスクにおける能動的学習のための強化ポリシーを用いた新しいフレームワークであるtextitOPADを提案する。
フレームワークは、取得機能を学び、パフォーマンスメトリクスを最適化しながら、選択するサンプルを決定する。
本稿では,文書理解に関わる様々なタスクに対する能動的学習のためのテキストOPADフレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-01T07:40:56Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。