論文の概要: Towards Effective Paraphrasing for Information Disguise
- arxiv url: http://arxiv.org/abs/2311.05018v1
- Date: Wed, 8 Nov 2023 21:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:42:34.386050
- Title: Towards Effective Paraphrasing for Information Disguise
- Title(参考訳): 情報偽装の効果的なパラフレージングに向けて
- Authors: Anmol Agarwal, Shrey Gupta, Vamshi Bonagiri, Manas Gaur, Joseph
Reagle, Ponnurangam Kumaraguru
- Abstract要約: 著者の執筆したオンラインコミュニケーションがセンシティブなドメインに関連する場合,ID(Information Disguise)の研究が重要となる。
著者の投稿から与えられた文に対して,パラフレージングの方向に文の反復摂動を行う枠組みを提案する。
本研究は, パープレキシティスコアを用いたフレーズ重要度ランキングの新たな手法を導入し, ビームサーチによる複数レベルのフレーズ置換を行う。
- 参考スコア(独自算出の注目度): 13.356934367660811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information Disguise (ID), a part of computational ethics in Natural Language
Processing (NLP), is concerned with best practices of textual paraphrasing to
prevent the non-consensual use of authors' posts on the Internet. Research on
ID becomes important when authors' written online communication pertains to
sensitive domains, e.g., mental health. Over time, researchers have utilized
AI-based automated word spinners (e.g., SpinRewriter, WordAI) for paraphrasing
content. However, these tools fail to satisfy the purpose of ID as their
paraphrased content still leads to the source when queried on search engines.
There is limited prior work on judging the effectiveness of paraphrasing
methods for ID on search engines or their proxies, neural retriever (NeurIR)
models. We propose a framework where, for a given sentence from an author's
post, we perform iterative perturbation on the sentence in the direction of
paraphrasing with an attempt to confuse the search mechanism of a NeurIR system
when the sentence is queried on it. Our experiments involve the subreddit
'r/AmItheAsshole' as the source of public content and Dense Passage Retriever
as a NeurIR system-based proxy for search engines. Our work introduces a novel
method of phrase-importance rankings using perplexity scores and involves
multi-level phrase substitutions via beam search. Our multi-phrase substitution
scheme succeeds in disguising sentences 82% of the time and hence takes an
essential step towards enabling researchers to disguise sensitive content
effectively before making it public. We also release the code of our approach.
- Abstract(参考訳): 自然言語処理(NLP)における計算倫理の一分野であるID(Information Disguise)は,インターネット上での著者のポストの非合意使用を防止するために,テキストパラフレーズのベストプラクティスに関心を持っている。
idの研究は、著者のオンラインコミュニケーションが機密ドメイン(例えばメンタルヘルス)に関連する場合に重要になる。
長年にわたり、研究者はAIベースの自動単語スピナー(SpinRewriter、WordAIなど)をパラフレーズコンテンツに利用してきた。
しかし、これらのツールがIDの目的を満足することができないのは、そのパラフレーズ付きコンテンツが検索エンジンで検索する際にもソースに繋がるからである。
サーチエンジンやそのプロキシ,ニューラルレトリバー(NeurIR)モデルにおけるIDのパラフレーズ化手法の有効性を判断するための先行研究は限られている。
そこで本研究では,著者の投稿から与えられた文に対してパラフレージングの方向に反復的な摂動を行い,その文が検索された場合のニューロワールシステムの探索機構を混乱させようとする枠組みを提案する。
我々の実験では、公開コンテンツのソースとしてsubreddit 'r/AmItheAsshole'、検索エンジンのNeurIRシステムベースのプロキシとしてDense Passage Retrieverが使われている。
本研究では,パープレキシティスコアを用いた新しいフレーズインポータンスランキング法を提案し,ビーム探索による多レベル句置換法を提案する。
我々のマルチフレーズ置換方式は82%の時間で文を分解することに成功し、研究者が公開する前に機密コンテンツを効果的に偽装できるようにするための重要な一歩を踏み出した。
このアプローチのコードもリリースしています。
関連論文リスト
- Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - RADAR: Robust AI-Text Detection via Adversarial Learning [69.5883095262619]
RADARはパラフラザーと検出器の対向訓練に基づいている。
パラフレーズの目標は、AIテキスト検出を避けるために現実的なコンテンツを生成することである。
RADARは検出器からのフィードバックを使ってパラフラザーを更新する。
論文 参考訳(メタデータ) (2023-07-07T21:13:27Z) - Beyond Black Box AI-Generated Plagiarism Detection: From Sentence to
Document Level [4.250876580245865]
既存のAI生成テキスト分類器は精度が限られており、しばしば偽陽性を生成する。
自然言語処理(NLP)技術を用いた新しい手法を提案する。
与えられた質問の複数のパラフレーズ付きバージョンを生成し、それを大きな言語モデルに入力し、回答を生成する。
本研究では,コサイン類似度に基づくコントラスト的損失関数を用いて,生成文と学生の反応とをマッチングする。
論文 参考訳(メタデータ) (2023-06-13T20:34:55Z) - Integrity and Junkiness Failure Handling for Embedding-based Retrieval:
A Case Study in Social Network Search [26.705196461992845]
埋め込みベースの検索は、eコマースやソーシャルネットワーク検索など、さまざまな検索アプリケーションで使われている。
本稿では,2021年初頭に開始された埋め込み型検索をソーシャルネットワーク検索エンジン上で解析する。
私たちは、それによってもたらされた失敗の2つの主要なカテゴリ、完全性とジャンク性を定義します。
論文 参考訳(メタデータ) (2023-04-18T20:53:47Z) - Paraphrase Identification with Deep Learning: A Review of Datasets and Methods [1.4325734372991794]
一般的なデータセットにおける特定のパラフレーズ型の表現不足が,盗作を検知する能力にどのように影響するかを検討する。
パラフレーズのための新しいタイポロジーを導入し、検証する。
我々は、AIに基づくパラフレーズ検出を強化するために、将来の研究とデータセット開発のための新しい方向を提案する。
論文 参考訳(メタデータ) (2022-12-13T23:06:20Z) - An Insight into The Intricacies of Lingual Paraphrasing Pragmatic
Discourse on The Purpose of Synonyms [0.0]
我々は,WordNet と Natural Language Tool Kit (NLTK) を用いて,任意の文書や段落を言い換えるアルゴリズムを開発した。
250段落のパラフレーズ精度は94.8%であった。
論文 参考訳(メタデータ) (2022-06-07T02:57:27Z) - Phrase Retrieval Learns Passage Retrieval, Too [77.57208968326422]
文節検索が,文節や文書を含む粗いレベルの検索の基盤となるかを検討する。
句検索システムでは,句検索の精度が向上し,句検索の精度が向上していることを示す。
また,句のフィルタリングやベクトル量子化により,インデックスのサイズを4~10倍に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-16T17:42:45Z) - LadRa-Net: Locally-Aware Dynamic Re-read Attention Net for Sentence
Semantic Matching [66.65398852962177]
文意味マッチングのための新しい動的再読ネットワーク(DRr-Net)を開発した。
DRr-Netをローカルに認識する動的再読み取り注意ネット(LadRa-Net)に拡張する
2つの一般的な文意味マッチングタスクの実験により、DRr-Netは文意味マッチングの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-08-06T02:07:04Z) - Tortured phrases: A dubious writing style emerging in science. Evidence
of critical issues affecting established journals [69.76097138157816]
確率的テキストジェネレータは10年以上にわたって偽の科学論文の作成に使われてきた。
複雑なAIを利用した生成技術は、人間のものと区別できないテキストを生成する。
一部のウェブサイトはテキストを無料で書き直し、拷問されたフレーズでいっぱいのgobbledegookを生成する。
論文 参考訳(メタデータ) (2021-07-12T20:47:08Z) - A Replication Study of Dense Passage Retriever [32.192420072129636]
Karpukhinらによって提案された高密度通過レトリバー(DPR)技術について研究する。
(2020) エンドツーエンドのオープンドメイン質問応答。
本稿では,著者らによるモデルチェックポイントから本研究の再現性について検討する。
私たちは、オリジナルの作業とまったく同じモデルを使って、エンドツーエンドの質問応答の有効性を改善することができます。
論文 参考訳(メタデータ) (2021-04-12T18:10:39Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。