Fugu-MT 論文翻訳(概要): InvBERT: Text Reconstruction from Contextualized Embeddings used for Derived Text Formats of Literary Works

論文の概要: InvBERT: Text Reconstruction from Contextualized Embeddings used for Derived Text Formats of Literary Works

arxiv url: http://arxiv.org/abs/2109.10104v1
Date: Tue, 21 Sep 2021 11:35:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-22 19:50:28.097628
Title: InvBERT: Text Reconstruction from Contextualized Embeddings used for Derived Text Formats of Literary Works
Title（参考訳）: InvBERT:文学作品の派生テキストフォーマットに用いる文脈的埋め込みからのテキスト再構成
Authors: Johannes H\"ohmann, Achim Rettinger, and Kai Kugler
Abstract要約: Digital Humanities and Computational Literary Studiesは文献調査にテキストマイニング手法を適用している。著作権の制限により、関連するデジタル化された文学作品の入手は制限されている。 BERTを逆転しようとする試みは、エンコーダのパーツをコンテキスト化された埋め込みと共に公開することが重要であることを示唆している。
参考スコア（独自算出の注目度）: 1.6058099298620423
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Digital Humanities and Computational Literary Studies apply text mining methods to investigate literature. Such automated approaches enable quantitative studies on large corpora which would not be feasible by manual inspection alone. However, due to copyright restrictions, the availability of relevant digitized literary works is limited. Derived Text Formats (DTFs) have been proposed as a solution. Here, textual materials are transformed in such a way that copyright-critical features are removed, but that the use of certain analytical methods remains possible. Contextualized word embeddings produced by transformer-encoders (like BERT) are promising candidates for DTFs because they allow for state-of-the-art performance on various analytical tasks and, at first sight, do not disclose the original text. However, in this paper we demonstrate that under certain conditions the reconstruction of the original copyrighted text becomes feasible and its publication in the form of contextualized word representations is not safe. Our attempts to invert BERT suggest, that publishing parts of the encoder together with the contextualized embeddings is critical, since it allows to generate data to train a decoder with a reconstruction accuracy sufficient to violate copyright laws.
Abstract（参考訳）: Digital Humanities and Computational Literary Studiesは文献調査にテキストマイニング手法を適用している。このような自動化アプローチは、手動の検査だけでは実現できない大規模なコーパスの定量的研究を可能にする。しかし、著作権制限のため、関連するデジタル化文学作品の入手は限られている。ソリューションとして派生テキストフォーマット(DTF)が提案されている。ここで、テキスト素材は著作権クリティカルな特徴が取り除かれるように変換されるが、特定の分析方法の使用は引き続き可能である。変換器エンコーダ(BERTなど)が生成する文脈的単語埋め込みは、様々な分析タスクにおける最先端のパフォーマンスを許容し、一見したところ、元のテキストを開示しないため、DTFの候補となる。しかし,本論文では,ある条件下では,原著作権文書の再構築が実現可能となり,文脈化語表現の形での出版が安全でないことを示す。 bertを逆転させる試みでは,著作権法に違反するのに十分な復元精度でデコーダをトレーニングするためのデータを生成することができるため,エンコーダの一部をコンテキスト化埋め込みと共に公開することが重要であることを示唆する。

関連論文リスト

Learning Interpretable Representations Leads to Semantically Faithful EEG-to-Text Generation [52.51005875755718]
我々は脳波からテキストへの復号に焦点をあて、後部崩壊のレンズを通して幻覚の問題に対処する。脳波とテキスト間の情報容量のミスマッチを認め、デコードタスクをコア意味のセマンティックな要約として再設計する。パブリックなZuCoデータセットの実験では、GLIMが一貫して、流動的なEEG基底文を生成することが示されている。
論文参考訳（メタデータ） (2025-05-21T05:29:55Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images [84.08181780666698]
TextDestroyerは、シーンテキスト破壊のためのトレーニングおよびアノテーションなしのメソッドである。提案手法は,復元前のガウス分布を用いて遅延開始符号中のテキスト領域をスクランブルする。 TextDestroyerの利点は、(1)労働集約型データアノテーションとリソース集約型トレーニングを排除し、(2)より徹底的なテキスト破壊を実現し、認識可能なトレースを防止し、(3)より優れた一般化能力を示し、現実世界のシーンと生成された画像の両方でうまく機能する。
論文参考訳（メタデータ） (2024-11-01T04:41:00Z)
Are Paraphrases Generated by Large Language Models Invertible? [4.148732457277201]
パラフレーズ変換の問題を考える: パラフレーズ化された文書が与えられたら、原文を復元しようとする。我々は、追加の著者固有の文脈を伴わず、かつ無関係に、パラフレーズ逆変換モデルを微調整する。パラフレーズ化された機械生成テキストから始めると、学習した反転モデルを用いて文書のかなりの部分を復元できることを示す。
論文参考訳（メタデータ） (2024-10-29T00:46:24Z)
Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。 STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。 DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文参考訳（メタデータ） (2024-08-11T06:36:42Z)
Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文参考訳（メタデータ） (2023-11-28T06:51:28Z)
Copyright Violations and Large Language Models [10.251605253237491]
本研究は,動詞の暗記のレンズを通して,著作権侵害や大規模言語モデルの問題を探究する。一般的な書籍のコレクションやコーディング問題に対して,さまざまな言語モデルを用いて実験を行った。本研究は,著作権規制の遵守を確実にするために,自然言語処理のさらなる検討の必要性と今後の発展への潜在的影響を強調した。
論文参考訳（メタデータ） (2023-10-20T19:14:59Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
Synthetically generated text for supervised text analysis [5.71097144710995]
テキスト生成の概念的概要、研究者が合成テキストを生成するための異なるテクニックをいつ選択すべきかに関するガイダンス、倫理に関する議論、および合成テキストの品質向上のための簡単なテクニックを提供する。本稿では,ウクライナにおける戦闘を記述した合成ツイートの生成,イベント検出システムの訓練のための特定の政治事象を記述した合成ニュース記事,文レベルポピュリズム分類器の訓練のためのポピュリスト宣言文の多言語コーパスの3つの応用例を用いて,合成テキストの有用性を示す。
論文参考訳（メタデータ） (2023-03-28T14:55:13Z)
Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)
Text-DIAE: Degradation Invariant Autoencoders for Text Recognition and Document Enhancement [8.428866479825736]
Text-DIAEは、テキスト認識(手書きまたはシーンテキスト)と文書画像強調という2つの課題を解決することを目的としている。ラベル付きデータを使わずに事前学習時に最適化すべき学習目標として、3つのプレテキストタスクを定義した。本手法は,既存の教師付きおよび自己監督型設定において,最先端の手法をはるかに超えている。
論文参考訳（メタデータ） (2022-03-09T15:44:36Z)
A Benchmark Corpus for the Detection of Automatically Generated Text in Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。 BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文参考訳（メタデータ） (2022-02-04T08:16:56Z)
Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文参考訳（メタデータ） (2021-12-15T04:27:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。