論文の概要: Artificial Text Detection via Examining the Topology of Attention Maps
- arxiv url: http://arxiv.org/abs/2109.04825v1
- Date: Fri, 10 Sep 2021 12:13:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 18:31:49.494633
- Title: Artificial Text Detection via Examining the Topology of Attention Maps
- Title(参考訳): 注意図のトポロジーによる人工テキスト検出
- Authors: Laida Kushnareva, Daniil Cherniavskii, Vladislav Mikhailov, Ekaterina
Artemova, Serguei Barannikov, Alexander Bernstein, Irina Piontkovskaya,
Dmitri Piontkovski, Evgeny Burnaev
- Abstract要約: トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
- 参考スコア(独自算出の注目度): 58.46367297712477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impressive capabilities of recent generative models to create texts that
are challenging to distinguish from the human-written ones can be misused for
generating fake news, product reviews, and even abusive content. Despite the
prominent performance of existing methods for artificial text detection, they
still lack interpretability and robustness towards unseen models. To this end,
we propose three novel types of interpretable topological features for this
task based on Topological Data Analysis (TDA) which is currently understudied
in the field of NLP. We empirically show that the features derived from the
BERT model outperform count- and neural-based baselines up to 10\% on three
common datasets, and tend to be the most robust towards unseen GPT-style
generation models as opposed to existing methods. The probing analysis of the
features reveals their sensitivity to the surface and syntactic properties. The
results demonstrate that TDA is a promising line with respect to NLP tasks,
specifically the ones that incorporate surface and structural information.
- Abstract(参考訳): 最近の生成モデルの印象的な能力は、人間が書いたものと区別するのが難しいテキストを作成することで、偽ニュース、製品レビュー、さらには悪質なコンテンツを生成するために誤用される可能性がある。
既存の人工テキスト検出手法の顕著な性能にもかかわらず、未確認モデルに対する解釈性と堅牢性は依然として欠如している。
そこで本研究では,現在NLPの分野で検討中のトポロジカルデータ解析(TDA)に基づく3つの新しい解釈可能なトポロジ的特徴を提案する。
BERTモデルから派生した特徴は,3つの共通データセットにおいて最大10\%まで,カウントベースとニューラルベースベースラインを上回り,既存の手法とは対照的にGPTスタイルの生成モデルに対して最も堅牢であることを示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
その結果,TDAはNLPタスク,特に表面情報や構造情報を取り入れたタスクに対して,有望なラインであることがわかった。
関連論文リスト
- Beyond Turing: A Comparative Analysis of Approaches for Detecting
Machine-Generated Text [1.919654267936118]
従来の浅層学習,言語モデル(LM)微調整,多言語モデル微調整の評価を行った。
結果は、メソッド間でのパフォーマンスにかなりの違いが示される。
この研究は、堅牢で差別性の高いモデルを作成することを目的とした将来の研究の道を開くものである。
論文 参考訳(メタデータ) (2023-11-21T06:23:38Z) - Artificial Text Boundary Detection with Topological Data Analysis and
Sliding Window Techniques [7.268650032347209]
我々は,この人工テキスト境界検出問題に対して,様々なアプローチを検討・比較する。
本稿では,RoBERTaモデルの教師付き微調整が,一般に有効であることを示す。
本研究では,凍結言語モデルの埋め込みから抽出した特徴に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T17:48:19Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - On the Explainability of Natural Language Processing Deep Models [3.0052400859458586]
これらの課題に対処し,自然言語処理(NLP)モデルについて十分な説明を行う手法が開発されている。
本研究は,NLP分野におけるExAI手法の民主化を目的として,NLPモデルにおけるモデル非依存およびモデル固有の説明可能性手法について調査する。
論文 参考訳(メタデータ) (2022-10-13T11:59:39Z) - Modeling Multi-Granularity Hierarchical Features for Relation Extraction [26.852869800344813]
本稿では,原文のみに基づく多粒度特徴抽出手法を提案する。
外部知識を必要とせずに,効果的な構造的特徴が達成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-09T09:44:05Z) - Robust Natural Language Processing: Recent Advances, Challenges, and
Future Directions [4.409836695738517]
文献を様々な次元にわたって体系的に要約することで,NLPロバストネス研究の構造化概要を述べる。
次に、テクニック、メトリクス、埋め込み、ベンチマークなど、堅牢性のさまざまな側面を深く掘り下げます。
論文 参考訳(メタデータ) (2022-01-03T17:17:11Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z) - Reverse Engineering Configurations of Neural Text Generation Models [86.9479386959155]
モデル選択の結果、機械が生成したテキストに現れるアーティファクトの研究は、新しい研究領域である。
我々は、モデリング選択が検出可能なアーティファクトを生成テキストに残すかどうかを確認するために、広範囲な診断テストを実行する。
我々の重要な発見は、厳密な実験によって裏付けられ、そのような成果物が存在することと、生成されたテキストのみを観察することで異なるモデリング選択を推測できることである。
論文 参考訳(メタデータ) (2020-04-13T21:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。