論文の概要: An Ensemble Approach for Annotating Source Code Identifiers with
Part-of-speech Tags
- arxiv url: http://arxiv.org/abs/2109.00629v1
- Date: Wed, 1 Sep 2021 21:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-04 03:59:54.709959
- Title: An Ensemble Approach for Annotating Source Code Identifiers with
Part-of-speech Tags
- Title(参考訳): 部分音声タグを用いたソースコード識別器のアンサンブルアプローチ
- Authors: Christian D. Newman, Michael J. Decker, Reem S. AlSuhaibani, Anthony
Peruma, Satyajit Mohapatra, Tejal Vishnoi, Marcos Zampieri, Mohamed W.
Mkaouer, Timothy J. Sheldon, Emily Hill
- Abstract要約: エンサンブルタグ(英: Ensemble tagging)は、自然言語テキストに注釈を付けるために、機械学習と複数の音声タグからの出力を使用する技法である。
5種類の識別子名を用いて,アンサンブルのアノテーションの品質について検討した。
その結果,識別子レベルでは75%,単語レベルでは84~86%の精度が得られた。
- 参考スコア(独自算出の注目度): 11.07844397259961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an ensemble part-of-speech tagging approach for source
code identifiers. Ensemble tagging is a technique that uses machine-learning
and the output from multiple part-of-speech taggers to annotate natural
language text at a higher quality than the part-of-speech taggers are able to
obtain independently. Our ensemble uses three state-of-the-art part-of-speech
taggers: SWUM, POSSE, and Stanford. We study the quality of the ensemble's
annotations on five different types of identifier names: function, class,
attribute, parameter, and declaration statement at the level of both individual
words and full identifier names. We also study and discuss the weaknesses of
our tagger to promote the future amelioration of these problems through further
research. Our results show that the ensemble achieves 75\% accuracy at the
identifier level and 84-86\% accuracy at the word level. This is an increase of
+17\% points at the identifier level from the closest independent
part-of-speech tagger.
- Abstract(参考訳): 本稿では,ソースコード識別子に対するアンサンブル・オブ・音声タグ方式を提案する。
アンサンブルタギング(英: Ensemble tagging)とは、複数の音声タグから得られる機械学習と出力を用いて、音声タグよりも高い品質で自然言語テキストに注釈を付ける手法である。
私たちのアンサンブルでは、SWUM、POSSE、スタンフォードという最先端の3つのタグが使われています。
我々は,各単語と完全識別子名の両方のレベルで,関数,クラス,属性,パラメータ,宣言文の5種類の識別子名に対するアンサンブルのアノテーションの品質について検討した。
また,これらの課題の今後の改善を促進するためのタグの弱点について,さらなる研究を通じて検討・検討する。
その結果, 識別子レベルでは75\%, 単語レベルでは84-86\%の精度が得られた。
これは、最も近い独立な音声タグから識別子レベルでの+17\%ポイントの増加である。
関連論文リスト
- Understanding the effects of word-level linguistic annotations in
under-resourced neural machine translation [0.0]
本稿では,低リソースのニューラルマシン翻訳における単語レベルの言語アノテーションの効果について検討する。
音声のパート・オブ・音声タグは、自動評価指標の点からモルフォ・シンタクティック記述タグよりも体系的に優れている。
論文 参考訳(メタデータ) (2024-01-29T11:39:46Z) - MUST&P-SRL: Multi-lingual and Unified Syllabification in Text and
Phonetic Domains for Speech Representation Learning [0.76146285961466]
言語特徴抽出の方法論として,複数の言語における単語の自動分割に着目した手法を提案する。
本手法は,テキストと音声の両領域において,テキストから音素の書き起こしを抽出すること,ストレスマーク,統合された自動音節分類に重点を置いている。
このシステムはオープンソースのコンポーネントとリソースで構築された。
論文 参考訳(メタデータ) (2023-10-17T19:27:23Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Searching for Discriminative Words in Multidimensional Continuous
Feature Space [0.0]
文書から識別キーワードを抽出する新しい手法を提案する。
異なる差別的指標が全体的な結果にどのように影響するかを示す。
単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-26T18:05:11Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-stage
Span Labeling [0.2624902795082451]
SpanSegTagと名づけられた中国語単語分割と音声タグ付けのためのニューラルモデルを提案する。
実験の結果,BERTベースのモデルであるSpanSegTagは,CTB5,CTB6,UDデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2021-12-17T12:59:02Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。