論文の概要: InvBERT: Text Reconstruction from Contextualized Embeddings used for
Derived Text Formats of Literary Works
- arxiv url: http://arxiv.org/abs/2109.10104v1
- Date: Tue, 21 Sep 2021 11:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 19:50:28.097628
- Title: InvBERT: Text Reconstruction from Contextualized Embeddings used for
Derived Text Formats of Literary Works
- Title(参考訳): InvBERT:文学作品の派生テキストフォーマットに用いる文脈的埋め込みからのテキスト再構成
- Authors: Johannes H\"ohmann, Achim Rettinger, and Kai Kugler
- Abstract要約: Digital Humanities and Computational Literary Studiesは文献調査にテキストマイニング手法を適用している。
著作権の制限により、関連するデジタル化された文学作品の入手は制限されている。
BERTを逆転しようとする試みは、エンコーダのパーツをコンテキスト化された埋め込みと共に公開することが重要であることを示唆している。
- 参考スコア(独自算出の注目度): 1.6058099298620423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Digital Humanities and Computational Literary Studies apply text mining
methods to investigate literature. Such automated approaches enable
quantitative studies on large corpora which would not be feasible by manual
inspection alone. However, due to copyright restrictions, the availability of
relevant digitized literary works is limited. Derived Text Formats (DTFs) have
been proposed as a solution. Here, textual materials are transformed in such a
way that copyright-critical features are removed, but that the use of certain
analytical methods remains possible. Contextualized word embeddings produced by
transformer-encoders (like BERT) are promising candidates for DTFs because they
allow for state-of-the-art performance on various analytical tasks and, at
first sight, do not disclose the original text. However, in this paper we
demonstrate that under certain conditions the reconstruction of the original
copyrighted text becomes feasible and its publication in the form of
contextualized word representations is not safe. Our attempts to invert BERT
suggest, that publishing parts of the encoder together with the contextualized
embeddings is critical, since it allows to generate data to train a decoder
with a reconstruction accuracy sufficient to violate copyright laws.
- Abstract(参考訳): Digital Humanities and Computational Literary Studiesは文献調査にテキストマイニング手法を適用している。
このような自動化アプローチは、手動の検査だけでは実現できない大規模なコーパスの定量的研究を可能にする。
しかし、著作権制限のため、関連するデジタル化文学作品の入手は限られている。
ソリューションとして派生テキストフォーマット(DTF)が提案されている。
ここで、テキスト素材は著作権クリティカルな特徴が取り除かれるように変換されるが、特定の分析方法の使用は引き続き可能である。
変換器エンコーダ(BERTなど)が生成する文脈的単語埋め込みは、様々な分析タスクにおける最先端のパフォーマンスを許容し、一見したところ、元のテキストを開示しないため、DTFの候補となる。
しかし,本論文では,ある条件下では,原著作権文書の再構築が実現可能となり,文脈化語表現の形での出版が安全でないことを示す。
bertを逆転させる試みでは,著作権法に違反するのに十分な復元精度でデコーダをトレーニングするためのデータを生成することができるため,エンコーダの一部をコンテキスト化埋め込みと共に公開することが重要であることを示唆する。
関連論文リスト
- TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images [84.08181780666698]
TextDestroyerは、シーンテキスト破壊のためのトレーニングおよびアノテーションなしのメソッドである。
提案手法は,復元前のガウス分布を用いて遅延開始符号中のテキスト領域をスクランブルする。
TextDestroyerの利点は、(1)労働集約型データアノテーションとリソース集約型トレーニングを排除し、(2)より徹底的なテキスト破壊を実現し、認識可能なトレースを防止し、(3)より優れた一般化能力を示し、現実世界のシーンと生成された画像の両方でうまく機能する。
論文 参考訳(メタデータ) (2024-11-01T04:41:00Z) - Are Paraphrases Generated by Large Language Models Invertible? [4.148732457277201]
パラフレーズ変換の問題を考える: パラフレーズ化された文書が与えられたら、原文を復元しようとする。
我々は、追加の著者固有の文脈を伴わず、かつ無関係に、パラフレーズ逆変換モデルを微調整する。
パラフレーズ化された機械生成テキストから始めると、学習した反転モデルを用いて文書のかなりの部分を復元できることを示す。
論文 参考訳(メタデータ) (2024-10-29T00:46:24Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Copyright Violations and Large Language Models [10.251605253237491]
本研究は,動詞の暗記のレンズを通して,著作権侵害や大規模言語モデルの問題を探究する。
一般的な書籍のコレクションやコーディング問題に対して,さまざまな言語モデルを用いて実験を行った。
本研究は,著作権規制の遵守を確実にするために,自然言語処理のさらなる検討の必要性と今後の発展への潜在的影響を強調した。
論文 参考訳(メタデータ) (2023-10-20T19:14:59Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Synthetically generated text for supervised text analysis [5.71097144710995]
テキスト生成の概念的概要、研究者が合成テキストを生成するための異なるテクニックをいつ選択すべきかに関するガイダンス、倫理に関する議論、および合成テキストの品質向上のための簡単なテクニックを提供する。
本稿では,ウクライナにおける戦闘を記述した合成ツイートの生成,イベント検出システムの訓練のための特定の政治事象を記述した合成ニュース記事,文レベルポピュリズム分類器の訓練のためのポピュリスト宣言文の多言語コーパスの3つの応用例を用いて,合成テキストの有用性を示す。
論文 参考訳(メタデータ) (2023-03-28T14:55:13Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。