論文の概要: Code and Named Entity Recognition in StackOverflow
- arxiv url: http://arxiv.org/abs/2005.01634v3
- Date: Sun, 15 Nov 2020 09:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:56:40.347367
- Title: Code and Named Entity Recognition in StackOverflow
- Title(参考訳): StackOverflowにおけるコードと名前付きエンティティ認識
- Authors: Jeniya Tabassum, Mounica Maddela, Wei Xu, Alan Ritter
- Abstract要約: 15,372個の注釈付き文と20個の微粒な実体型からなるコンピュータ・プログラミング・ドメインのための新しい名前付きエンティティ認識コーパスを導入する。
StackOverflowの1億5200万文に対して,ドメイン内のBERT表現(BERTOverflow)をトレーニングした結果,市販BERTよりもF-1スコアが絶対的に増加した。
また、コードに対する79.10F$_$スコアとStackOverflowデータに対する名前付きエンティティ認識を実現するSoftNERモデルを提案する。
- 参考スコア(独自算出の注目度): 25.467000050581557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an increasing interest in studying natural language and computer
code together, as large corpora of programming texts become readily available
on the Internet. For example, StackOverflow currently has over 15 million
programming related questions written by 8.5 million users. Meanwhile, there is
still a lack of fundamental NLP techniques for identifying code tokens or
software-related named entities that appear within natural language sentences.
In this paper, we introduce a new named entity recognition (NER) corpus for the
computer programming domain, consisting of 15,372 sentences annotated with 20
fine-grained entity types. We trained in-domain BERT representations
(BERTOverflow) on 152 million sentences from StackOverflow, which lead to an
absolute increase of +10 F-1 score over off-the-shelf BERT. We also present the
SoftNER model which achieves an overall 79.10 F$_1$ score for code and named
entity recognition on StackOverflow data. Our SoftNER model incorporates a
context-independent code token classifier with corpus-level features to improve
the BERT-based tagging model. Our code and data are available at:
https://github.com/jeniyat/StackOverflowNER/
- Abstract(参考訳): インターネット上では、大量のプログラミングテキストのコーパスが利用可能になるにつれて、自然言語とコンピュータコードの研究への関心が高まっている。
例えば、StackOverflowは現在850万人のユーザーが書いた1500万以上のプログラミング関連の質問がある。
一方で、コードトークンや、自然言語文に現れるソフトウェア関連の名前付きエンティティを識別するための基本的なnlp技術が不足している。
本稿では,20種類の微粒なエンティティ型を付加した15,372文からなる,コンピュータプログラミング領域のための新しい名前付きエンティティ認識コーパスを提案する。
StackOverflowから1億5200万の文に対して,ドメイン内のBERT表現(BERTOverflow)をトレーニングした。
また、コードに対する79.10 F$_1$スコアとStackOverflowデータに対する名前付きエンティティ認識を実現するSoftNERモデルを提案する。
我々のSoftNERモデルは、BERTベースのタグ付けモデルを改善するために、コーパスレベルの機能を備えた文脈非依存のコードトークン分類器を組み込んでいる。
私たちのコードとデータは、https://github.com/jeniyat/StackOverflowNER/で利用可能です。
関連論文リスト
- Few-shot Name Entity Recognition on StackOverflow [4.120505838411977]
メタラーニングを利用した数発のエンティティ認識(NER)手法であるRoBERTa+MAMLを提案する。
提案手法はStackOverflow NERコーパスで評価され,ベースラインよりも5%F1スコアが向上した。
論文 参考訳(メタデータ) (2024-04-15T01:43:14Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - Representation Learning for Stack Overflow Posts: How Far are We? [14.520780251680586]
最先端のStack Overflowポスト表現モデルはPost2VecとBERTOverflowである。
有望な結果にもかかわらず、これらの表現法は同じ実験環境では評価されていない。
本稿では,SOBERTを提案する。
論文 参考訳(メタデータ) (2023-03-13T04:49:06Z) - CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code [75.08995072899594]
コード生成のための評価指標であるCodeBERTScoreを提案する。
CodeBERTScoreは生成されたコードの前に入力された自然言語をエンコードする。
CodeBERTScoreは、既存のすべての指標よりも、人間の嗜好と機能的正しさとの相関性が高いことがわかった。
論文 参考訳(メタデータ) (2023-02-10T22:12:05Z) - The Stack: 3 TB of permissively licensed source code [22.522188673911792]
Stackは、30のプログラミング言語でパーミッシブにライセンスされたソースコードのデータセットである。
以前報告されたHumanEvalとMBPPのパフォーマンスは、パーミッシブライセンスデータのみを使用して一致させることができる。
論文 参考訳(メタデータ) (2022-11-20T18:15:30Z) - Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。
解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。
実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文 参考訳(メタデータ) (2022-10-06T12:55:17Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - LAMNER: Code Comment Generation Using Character Language Model and Named
Entity Recognition [0.7894331610810762]
LANguage Model と Named Entity Recognition (LAMNER) を提案する。
LAMNERは、コード構造を効果的に符号化し、コードトークンの構造的特性をキャプチャできるコードコメント生成装置である。
LAMNERや他のベースラインから生成されたコメントを、一般的な4つのメトリクスを持つ人気のあるJavaデータセットで評価する。
論文 参考訳(メタデータ) (2022-04-05T20:53:06Z) - DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for
Multilingual Named Entity Recognition [94.1865071914727]
MultiCoNERは、複数の言語に対する短文と低文設定で意味的に曖昧な名前のエンティティを検出することを目的としている。
我々のチームDAMO-NLPは知識に基づくシステムを提案し、ウィキペディアに基づく多言語知識ベースを構築する。
入力文が与えられた場合,本システムは知識ベースから関連コンテキストを効果的に検索する。
我々のシステムはMultiCoNER共有タスクで13トラック中10トラックを獲得した。
論文 参考訳(メタデータ) (2022-03-01T15:29:35Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。