論文の概要: SCALAR: A Part-of-speech Tagger for Identifiers
- arxiv url: http://arxiv.org/abs/2504.17038v1
- Date: Wed, 23 Apr 2025 18:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.136738
- Title: SCALAR: A Part-of-speech Tagger for Identifiers
- Title(参考訳): SCALAR: 識別のための音声タガー
- Authors: Christian D. Newman, Brandon Scholten, Sophia Testa, Joshua A. C. Behler, Syreen Banabilah, Michael L. Collard, Michael J. Decker, Mohamed Wiem Mkaouer, Marcos Zampieri, Eman Abdullah AlOmar, Reem Alsuhaibani, Anthony Peruma, Jonathan I. Maletic,
- Abstract要約: 提案するSCALARは,ソースコード識別子を対応する音声タグシーケンス(文法パターン)にマッピング(注釈付け)するツールである。
SCALARの内部モデルは、Scikit-learnのGradientBoostingClassifierを使ってトレーニングされている。
コードはGithubで入手できる。
- 参考スコア(独自算出の注目度): 17.910231423941898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper presents the Source Code Analysis and Lexical Annotation Runtime (SCALAR), a tool specialized for mapping (annotating) source code identifier names to their corresponding part-of-speech tag sequence (grammar pattern). SCALAR's internal model is trained using scikit-learn's GradientBoostingClassifier in conjunction with a manually-curated oracle of identifier names and their grammar patterns. This specializes the tagger to recognize the unique structure of the natural language used by developers to create all types of identifiers (e.g., function names, variable names etc.). SCALAR's output is compared with a previous version of the tagger, as well as a modern off-the-shelf part-of-speech tagger to show how it improves upon other taggers' output for annotating identifiers. The code is available on Github
- Abstract(参考訳): 本稿では、ソースコード識別子を対応する部分音声タグシーケンス(文法パターン)にマッピング(注釈付け)するためのツールである、ソースコード解析および語彙アノテーションランタイム(SCALAR)について述べる。
SCALARの内部モデルは、Scikit-learnのGradientBoostingClassifierを使って、手動で計算された識別子名とその文法パターンのオラクルと合わせてトレーニングされている。
これは、開発者がすべての種類の識別子(例えば、関数名、変数名など)を作成するために使用する自然言語のユニークな構造を認識するために、タグを特殊化する。
SCALARの出力は、以前のバージョンのタグと、最新のオフ・ザ・シェルの音声タグと比較され、識別子の注釈付けのために他のタグの出力をどのように改善するかを示す。
コードはGithubで入手できる
関連論文リスト
- LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [63.07563443280147]
本稿では,AG-ReID のための新しいフレームワーク LATex を提案する。
属性ベースのテキスト知識を活用するために、プロンプトチューニング戦略を採用する。
我々のフレームワークは、AG-ReIDを改善するために属性ベースのテキスト知識を完全に活用できる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-03-15T02:40:13Z) - Learning Mutually Informed Representations for Characters and Subwords [26.189422354038978]
本稿では,文字とサブワードの言語モデルを組み合わせることを目的とした絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを別のモダリティとして扱う。
テキスト分類、名前付きエンティティ認識、POSタグ付け、文字レベルのシーケンスラベリングについて評価を行った。
論文 参考訳(メタデータ) (2023-11-14T02:09:10Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Influence Functions for Sequence Tagging Models [49.81774968547377]
影響関数を拡張して、予測を学習ポイントまで追跡し、それらに通知します。
本手法を用いて,系統的アノテーションの誤りを同定し,セグメント効果の実用性を示す。
論文 参考訳(メタデータ) (2022-10-25T17:13:11Z) - What do tokens know about their characters and how do they know it? [3.8254443661593633]
サブワードトークン化スキームを用いた事前学習型言語モデルは,文字レベルの情報を必要とする様々な言語タスクで成功することを示す。
これらのモデルが文字レベル情報を強固にエンコードし、一般に、より大きなモデルがそのタスクにおいてより優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-06T13:27:26Z) - Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。
我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。
本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文 参考訳(メタデータ) (2022-03-16T23:21:05Z) - An Ensemble Approach for Annotating Source Code Identifiers with
Part-of-speech Tags [11.07844397259961]
エンサンブルタグ(英: Ensemble tagging)は、自然言語テキストに注釈を付けるために、機械学習と複数の音声タグからの出力を使用する技法である。
5種類の識別子名を用いて,アンサンブルのアノテーションの品質について検討した。
その結果,識別子レベルでは75%,単語レベルでは84~86%の精度が得られた。
論文 参考訳(メタデータ) (2021-09-01T21:49:32Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Classification of Chinese Handwritten Numbers with Labeled Projective
Dictionary Pair Learning [1.8594711725515674]
我々は,識別可能性,空間性,分類誤差の3つの要因を取り入れたクラス固有辞書を設計する。
我々は、辞書原子を生成するために、新しい特徴空間、すなわち、向き付け勾配(HOG)のヒストグラムを採用する。
その結果,最先端のディープラーニング技術と比較して,分類性能が向上した(sim98%)。
論文 参考訳(メタデータ) (2020-03-26T01:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。