論文の概要: Artificial Text Detection via Examining the Topology of Attention Maps
- arxiv url: http://arxiv.org/abs/2109.04825v1
- Date: Fri, 10 Sep 2021 12:13:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 18:31:49.494633
- Title: Artificial Text Detection via Examining the Topology of Attention Maps
- Title(参考訳): 注意図のトポロジーによる人工テキスト検出
- Authors: Laida Kushnareva, Daniil Cherniavskii, Vladislav Mikhailov, Ekaterina
Artemova, Serguei Barannikov, Alexander Bernstein, Irina Piontkovskaya,
Dmitri Piontkovski, Evgeny Burnaev
- Abstract要約: トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
- 参考スコア(独自算出の注目度): 58.46367297712477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impressive capabilities of recent generative models to create texts that
are challenging to distinguish from the human-written ones can be misused for
generating fake news, product reviews, and even abusive content. Despite the
prominent performance of existing methods for artificial text detection, they
still lack interpretability and robustness towards unseen models. To this end,
we propose three novel types of interpretable topological features for this
task based on Topological Data Analysis (TDA) which is currently understudied
in the field of NLP. We empirically show that the features derived from the
BERT model outperform count- and neural-based baselines up to 10\% on three
common datasets, and tend to be the most robust towards unseen GPT-style
generation models as opposed to existing methods. The probing analysis of the
features reveals their sensitivity to the surface and syntactic properties. The
results demonstrate that TDA is a promising line with respect to NLP tasks,
specifically the ones that incorporate surface and structural information.
- Abstract(参考訳): 最近の生成モデルの印象的な能力は、人間が書いたものと区別するのが難しいテキストを作成することで、偽ニュース、製品レビュー、さらには悪質なコンテンツを生成するために誤用される可能性がある。
既存の人工テキスト検出手法の顕著な性能にもかかわらず、未確認モデルに対する解釈性と堅牢性は依然として欠如している。
そこで本研究では,現在NLPの分野で検討中のトポロジカルデータ解析(TDA)に基づく3つの新しい解釈可能なトポロジ的特徴を提案する。
BERTモデルから派生した特徴は,3つの共通データセットにおいて最大10\%まで,カウントベースとニューラルベースベースラインを上回り,既存の手法とは対照的にGPTスタイルの生成モデルに対して最も堅牢であることを示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
その結果,TDAはNLPタスク,特に表面情報や構造情報を取り入れたタスクに対して,有望なラインであることがわかった。
関連論文リスト
- Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Challenges and Opportunities in Text Generation Explainability [12.089513278445704]
本稿では,説明可能性手法の開発と評価において生じる3つのグループに分類される17の課題について概説する。
これらの課題には、トークン化、説明の類似性の定義、トークンの重要性の決定と予測変更メトリクス、人間の介入のレベル、適切なテストデータセットの作成などが含まれる。
この論文は、これらの課題がコミュニティにとっての新たな機会として、どのように絡み合うことができるかを説明している。
論文 参考訳(メタデータ) (2024-05-14T09:44:52Z) - Towards Robustness of Text-to-Visualization Translation against Lexical and Phrasal Variability [27.16741353384065]
テキスト・トゥ・バイ・モデルはしばしば、質問における単語間の語彙マッチングとデータスキーマにおけるトークンに依存している。
本研究では,これまで検討されていない領域である現行のテキスト・ツー・ヴィジュア・モデルのロバスト性について検討する。
本稿では,2つの変種における入力摂動に対処するために特別に設計されたGRED(Retrieval-Augmented Generation, RAG)技術に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T16:12:50Z) - Beyond Turing: A Comparative Analysis of Approaches for Detecting Machine-Generated Text [1.919654267936118]
従来の浅層学習,言語モデル(LM)微調整,多言語モデル微調整の評価を行った。
結果は、メソッド間でのパフォーマンスにかなりの違いが示される。
この研究は、堅牢で差別性の高いモデルを作成することを目的とした将来の研究の道を開くものである。
論文 参考訳(メタデータ) (2023-11-21T06:23:38Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - On the Explainability of Natural Language Processing Deep Models [3.0052400859458586]
これらの課題に対処し,自然言語処理(NLP)モデルについて十分な説明を行う手法が開発されている。
本研究は,NLP分野におけるExAI手法の民主化を目的として,NLPモデルにおけるモデル非依存およびモデル固有の説明可能性手法について調査する。
論文 参考訳(メタデータ) (2022-10-13T11:59:39Z) - Modeling Multi-Granularity Hierarchical Features for Relation Extraction [26.852869800344813]
本稿では,原文のみに基づく多粒度特徴抽出手法を提案する。
外部知識を必要とせずに,効果的な構造的特徴が達成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-09T09:44:05Z) - Reverse Engineering Configurations of Neural Text Generation Models [86.9479386959155]
モデル選択の結果、機械が生成したテキストに現れるアーティファクトの研究は、新しい研究領域である。
我々は、モデリング選択が検出可能なアーティファクトを生成テキストに残すかどうかを確認するために、広範囲な診断テストを実行する。
我々の重要な発見は、厳密な実験によって裏付けられ、そのような成果物が存在することと、生成されたテキストのみを観察することで異なるモデリング選択を推測できることである。
論文 参考訳(メタデータ) (2020-04-13T21:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。