論文の概要: Identification of the Relevance of Comments in Codes Using Bag of Words
and Transformer Based Models
- arxiv url: http://arxiv.org/abs/2308.06144v1
- Date: Fri, 11 Aug 2023 14:06:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 13:56:39.806909
- Title: Identification of the Relevance of Comments in Codes Using Bag of Words
and Transformer Based Models
- Title(参考訳): bag of words と transformer based model を用いたコード中のコメントの関連性の同定
- Authors: Sruthi S, Tanmay Basu
- Abstract要約: 本稿では,モデルの概要と,トレーニングコーパスにおけるその他の重要な知見について述べる。
トレーニングコーパス上での異なるモデルの性能を報告し、与えられたテストコーパス上でのベスト5モデルを実装した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Forum for Information Retrieval (FIRE) started a shared task this year
for classification of comments of different code segments. This is binary text
classification task where the objective is to identify whether comments given
for certain code segments are relevant or not. The BioNLP-IISERB group at the
Indian Institute of Science Education and Research Bhopal (IISERB) participated
in this task and submitted five runs for five different models. The paper
presents the overview of the models and other significant findings on the
training corpus. The methods involve different feature engineering schemes and
text classification techniques. The performance of the classical bag of words
model and transformer-based models were explored to identify significant
features from the given training corpus. We have explored different classifiers
viz., random forest, support vector machine and logistic regression using the
bag of words model. Furthermore, the pre-trained transformer based models like
BERT, RoBERT and ALBERT were also used by fine-tuning them on the given
training corpus. The performance of different such models over the training
corpus were reported and the best five models were implemented on the given
test corpus. The empirical results show that the bag of words model outperforms
the transformer based models, however, the performance of our runs are not
reasonably well in both training and test corpus. This paper also addresses the
limitations of the models and scope for further improvement.
- Abstract(参考訳): 情報検索フォーラム(fire)は今年、異なるコードセグメントのコメントを分類するための共有タスクを開始した。
これはバイナリテキスト分類タスクで、特定のコードセグメントに与えられたコメントが関連があるかどうかを識別する目的である。
インド科学教育研究会(IISERB)のBioNLP-IISERBグループは、この作業に参加し、5つの異なるモデルに対して5回のランを提出した。
本稿では,モデルの概要とトレーニングコーパスにおけるその他の重要な知見について述べる。
これらの手法には、異なる特徴工学スキームとテキスト分類技術が含まれる。
与えられた学習コーパスから重要な特徴を識別するために,古典的な単語袋とトランスフォーマーベースモデルの性能を検討した。
我々は、単語の袋を用いて、異なる分類器、ランダムフォレスト、サポートベクターマシン、ロジスティック回帰を探索した。
さらに、bert、robert、albertといった事前訓練されたトランスフォーマーベースのモデルも、与えられたトレーニングコーパスで微調整された。
トレーニングコーパス上での異なるモデルの性能を報告し、与えられたテストコーパス上でのベスト5モデルを実装した。
実験の結果, 単語の袋モデルはトランスフォーマーモデルよりも優れていたが, トレーニングとテストコーパスでは, 動作性能は良好ではないことがわかった。
本稿は、さらなる改善のためのモデルとスコープの制限についても論じる。
関連論文リスト
- The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - On Robustness of Finetuned Transformer-based NLP Models [11.063628128069736]
CKAとSTIRの2つの指標を用いて、事前訓練された言語モデルと微調整された言語モデル間の変化を特徴付ける。
GPT-2表現はBERTやT5よりも複数の入力摂動に対して堅牢である。
この研究は、人気のあるTransformerベースのモデルの摂動固有の弱点に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-05-23T18:25:18Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - Artificial Interrogation for Attributing Language Models [0.0]
この課題は、人気言語モデルの12のオープンソースベースバージョンと、テキスト生成のための12の微調整言語モデルを提供する。
コンテストの目標は、どのモデルがどのベースモデルに由来するかを特定することである。
両集合のモデルから生成された応答の類似性を測定するために4つの異なるアプローチを採用した。
論文 参考訳(メタデータ) (2022-11-20T05:46:29Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - Explanation-Guided Training for Cross-Domain Few-Shot Classification [96.12873073444091]
クロスドメイン・ショット分類タスク(CD-FSC)は、データセットで表されるドメインをまたいで一般化する要件と、少数ショット分類を組み合わせたものである。
既存のFSCモデルに対する新しいトレーニング手法を提案する。
説明誘導学習はモデル一般化を効果的に改善することを示す。
論文 参考訳(メタデータ) (2020-07-17T07:28:08Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z) - Gradient-Based Adversarial Training on Transformer Networks for
Detecting Check-Worthy Factual Claims [3.7543966923106438]
本稿では,最初の逆正則変換型クレームスポッタモデルを提案する。
現在の最先端モデルよりもF1スコアが4.70ポイント向上した。
本稿では,変換器モデルに逆学習を適用する手法を提案する。
論文 参考訳(メタデータ) (2020-02-18T16:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。