論文の概要: A Novel Plagiarism Detection Approach Combining BERT-based Word
Embedding, Attention-based LSTMs and an Improved Differential Evolution
Algorithm
- arxiv url: http://arxiv.org/abs/2305.02374v1
- Date: Wed, 3 May 2023 18:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 18:03:25.247419
- Title: A Novel Plagiarism Detection Approach Combining BERT-based Word
Embedding, Attention-based LSTMs and an Improved Differential Evolution
Algorithm
- Title(参考訳): BERTに基づく単語埋め込みと注意に基づくLSTMと改良された微分進化アルゴリズムを組み合わせた新しいプラジャリズム検出手法
- Authors: Seyed Vahid Moravvej, Seyed Jalaleddin Mousavirad, Diego Oliva, Fardin
Mohammadi
- Abstract要約: 本稿では,アテンション機構に基づく長短期メモリ(LSTM)とトランスフォーマー(BERT)ワード埋め込みによる双方向エンコーダ表現に基づくプラギアリズム検出手法を提案する。
BERTは下流タスクに含まれることができ、タスク固有の構造として微調整され、訓練されたBERTモデルは様々な言語特性を検出することができる。
- 参考スコア(独自算出の注目度): 11.142354615369273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting plagiarism involves finding similar items in two different sources.
In this article, we propose a novel method for detecting plagiarism that is
based on attention mechanism-based long short-term memory (LSTM) and
bidirectional encoder representations from transformers (BERT) word embedding,
enhanced with optimized differential evolution (DE) method for pre-training and
a focal loss function for training. BERT could be included in a downstream task
and fine-tuned as a task-specific BERT can be included in a downstream task and
fine-tuned as a task-specific structure, while the trained BERT model is
capable of detecting various linguistic characteristics. Unbalanced
classification is one of the primary issues with plagiarism detection. We
suggest a focal loss-based training technique that carefully learns minority
class instances to solve this. Another issue that we tackle is the training
phase itself, which typically employs gradient-based methods like
back-propagation for the learning process and thus suffers from some drawbacks,
including sensitivity to initialization. To initiate the BP process, we suggest
a novel DE algorithm that makes use of a clustering-based mutation operator.
Here, a winning cluster is identified for the current DE population, and a
fresh updating method is used to produce potential answers. We evaluate our
proposed approach on three benchmark datasets ( MSRP, SNLI, and SemEval2014)
and demonstrate that it performs well when compared to both conventional and
population-based methods.
- Abstract(参考訳): 盗作の検出は、2つの異なるソースから類似のアイテムを見つけることを伴う。
本稿では,注意機構に基づく長短期記憶(LSTM)と,変圧器(BERT)単語の埋め込みによる双方向エンコーダ表現に基づいて,事前学習のための最適化微分進化(DE)法と訓練のための焦点損失関数を併用した,新しいプラギアリズム検出法を提案する。
BERTは下流タスクに含まれることができ、タスク固有のBERTとして微調整され、タスク固有の構造として微調整され、訓練されたBERTモデルは様々な言語特性を検出することができる。
不均衡分類は、盗作検出における主要な問題の一つである。
マイノリティクラスインスタンスを慎重に学習してこの問題を解決する焦点損失に基づくトレーニング手法を提案する。
これは一般的に、学習プロセスにバックプロパゲーションのような勾配ベースの手法を用いるため、初期化に対する感受性などいくつかの欠点を抱えています。
BPプロセスを開始するために,クラスタリングに基づく突然変異演算子を用いた新しいDEアルゴリズムを提案する。
ここでは、現在のDE人口に対して勝利クラスタを同定し、潜在的回答を生成するために新しい更新方法を用いる。
我々は,提案手法を3つのベンチマークデータセット(msrp,snli,semeval2014)で評価し,従来の手法と人口ベースの手法を比べた結果,良好な性能を示す。
関連論文リスト
- A Contrastive Symmetric Forward-Forward Algorithm (SFFA) for Continual Learning Tasks [7.345136916791223]
フォワードフォワードアルゴリズム(FFA)は、ニューラルネットワーク学習における従来のバックプロパゲーションアルゴリズムの代替として、最近勢いを増している。
この研究は、各層を正および負のニューロンに分割するオリジナルのFFAの新たな修正であるSymmetric Forward-Forward Algorithm (SFFA)を提案する。
論文 参考訳(メタデータ) (2024-09-11T16:21:44Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - AICSD: Adaptive Inter-Class Similarity Distillation for Semantic
Segmentation [12.92102548320001]
本稿では,知識蒸留を目的としたICSD (Inter-Class similarity Distillation) を提案する。
提案手法は,教師ネットワークから生徒ネットワークへの高次関係を,ネットワーク出力から各クラス毎のクラス内分布を独立に計算することによって伝達する。
セマンティックセグメンテーションのためのよく知られた2つのデータセットであるCityscapesとPascal VOC 2012の実験により、提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-08-08T13:17:20Z) - Informative regularization for a multi-layer perceptron RR Lyrae
classifier under data shift [3.303002683812084]
本稿では,情報正規化とアドホックなトレーニング手法に基づくスケーラブルで容易に適応可能なアプローチを提案し,シフト問題を緩和する。
提案手法は,特徴量からの知識をニューラルネットワークに組み込むことで,基礎となるデータシフト問題を管理する。
論文 参考訳(メタデータ) (2023-03-12T02:49:19Z) - An LSTM-based Plagiarism Detection via Attention Mechanism and a
Population-based Approach for Pre-Training Parameters with imbalanced Classes [1.9949261242626626]
本稿では,Long Short-Term Memory(LSTM)と,LSTM-AM-ABCと呼ばれるアテンション機構に基づくアーキテクチャを提案する。
提案アルゴリズムは,全てのLSTM,アテンション機構,フィードフォワードニューラルネットワークにおいて,モデル学習の初期値を同時に求めることができる。
論文 参考訳(メタデータ) (2021-10-17T09:20:03Z) - Training ELECTRA Augmented with Multi-word Selection [53.77046731238381]
本稿では,マルチタスク学習に基づくELECTRAの改良を目的としたテキストエンコーダ事前学習手法を提案する。
具体的には、識別器を訓練し、置換トークンを同時に検出し、候補集合から元のトークンを選択する。
論文 参考訳(メタデータ) (2021-05-31T23:19:00Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Simultaneous Perturbation Stochastic Approximation for Few-Shot Learning [0.5801044612920815]
本稿では, プロトタイプ型ネットワーク手法に基づく, プロトタイプライクな少数ショット学習手法を提案する。
ベンチマークデータセットを用いた実験の結果,提案手法は元のネットワークよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-06-09T09:47:58Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。