論文の概要: Detection of tortured phrases in scientific literature
- arxiv url: http://arxiv.org/abs/2402.03370v1
- Date: Fri, 2 Feb 2024 08:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 18:50:52.003043
- Title: Detection of tortured phrases in scientific literature
- Title(参考訳): 科学文献における拷問語の検出
- Authors: El\'ena Martel (SIGMA, LIG), Martin Lentschat (SIGMA, GETALP), Cyril
Labb\'e (LIG, SIGMA )
- Abstract要約: 本稿では,科学的論文からいわゆる拷問句を抽出する様々な自動検出手法を提案する。
87のリコール値と.61の精度で、検証のためにドメインの専門家に提出される新しい拷問句を検索することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents various automatic detection methods to extract so called
tortured phrases from scientific papers. These tortured phrases, e.g. flag to
clamor instead of signal to noise, are the results of paraphrasing tools used
to escape plagiarism detection. We built a dataset and evaluated several
strategies to flag previously undocumented tortured phrases. The proposed and
tested methods are based on language models and either on embeddings
similarities or on predictions of masked token. We found that an approach using
token prediction and that propagates the scores to the chunk level gives the
best results. With a recall value of .87 and a precision value of .61, it could
retrieve new tortured phrases to be submitted to domain experts for validation.
- Abstract(参考訳): 本稿では,科学論文からいわゆる拷問フレーズを抽出するための各種自動検出手法を提案する。
これらの拷問されたフレーズ(例えば、信号からノイズへの信号ではなく、フラグからクレモアへのフラグ)は、盗聴検出から逃れるために使われるパラフレーズツールの結果である。
データセットを構築し、未文書の拷問句にフラグを付けるためのいくつかの戦略を評価しました。
提案およびテストされた手法は、言語モデルに基づいており、埋め込みの類似性またはマスクトークンの予測に基づいている。
トークン予測とスコアをチャンクレベルに伝播するアプローチが,最良の結果をもたらすことがわかった。
リコール値 .87 と精度値 .61 では、検証のためにドメインの専門家に提出される新しい拷問されたフレーズを検索することができる。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Effects of term weighting approach with and without stop words removing
on Arabic text classification [0.9217021281095907]
本研究では,2項重み付け法と項重み付け法が停止語を除去した場合のテキストの分類方法に与える影響を比較検討した。
全ての指標に対して、停止語除去を伴う周波数特徴重み付け手法は二分法よりも優れている。
このデータから、同じフレーズ重み付け手法を用いて、停止語除去が分類精度を高めることは明らかである。
論文 参考訳(メタデータ) (2024-02-21T11:31:04Z) - Alternative Pseudo-Labeling for Semi-Supervised Automatic Speech
Recognition [49.42732949233184]
ラベル付きデータが不十分な場合、擬似ラベル技術による半教師付き学習は自動音声認識の性能を大幅に向上させることができる。
損失関数のグラウンドトルースとしてノイズラベルを取ると、最適以下の性能が得られる。
そこで我々は,ノイズの多い擬似ラベル問題に対処するために,代替擬似ラベル方式という新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-12T12:13:52Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - A Semantic Approach to Negation Detection and Word Disambiguation with
Natural Language Processing [1.0499611180329804]
本研究の目的は,テキストの語彙構造を一意に評価することで文中の否定を検出する方法を示すことである。
提案手法は,文の文脈的利用を解決するために,テキスト内の関連表現の特徴を全て検討する。
論文 参考訳(メタデータ) (2023-02-05T03:58:45Z) - Investigating the detection of Tortured Phrases in Scientific Literature [0.0]
最近の研究では、固定表現の代わりに現れる予期せぬ奇妙なフレーズである「ねじれ句」の概念が紹介されている。
本研究の目的は,未記載の拷問句を自動的に検出する方法について検討することである。
論文 参考訳(メタデータ) (2022-10-24T08:15:22Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Randomized Substitution and Vote for Textual Adversarial Example
Detection [6.664295299367366]
一連の研究により、自然なテキスト処理モデルが敵の例に弱いことが示されている。
我々はランダム化代用投票法(RS&V)と呼ばれる新しいテキスト対逆例検出法を提案する。
3つのベンチマークデータセットに対する実証的な評価は、RS&Vが既存の検出方法よりも、テキストの逆例をよりうまく検出できることを示している。
論文 参考訳(メタデータ) (2021-09-13T04:17:58Z) - Using BERT Encoding to Tackle the Mad-lib Attack in SMS Spam Detection [0.0]
GoogleのBERTのような単語の意味や文脈に敏感な言語モデルが、この敵対的攻撃を克服するのに有用かどうかを検討する。
5572のSMSスパムメッセージのデータセットを用いて,まず検出性能の基準を確立した。
そして、これらのメッセージに含まれる語彙のシソーラスを構築し、Mad-lib攻撃実験をセットアップした。
その結果、従来のモデルは元のデータセットで94%のバランス精度(BA)を達成したのに対し、BERTモデルは96%を得た。
論文 参考訳(メタデータ) (2021-07-13T21:17:57Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。