論文の概要: Driving Context into Text-to-Text Privatization
- arxiv url: http://arxiv.org/abs/2306.01457v1
- Date: Fri, 2 Jun 2023 11:33:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 15:25:55.714363
- Title: Driving Context into Text-to-Text Privatization
- Title(参考訳): テキスト・テキスト・プライバタイズにおけるコンテキストの駆動
- Authors: Stefan Arnold, Dilara Yesilbas, Sven Weinzierl
- Abstract要約: textitMetric Differential Privacyは、単語のベクトルにノイズを加えることによって、テキストからテキストへの民営化を可能にする。
分類精度が6.05%のかなり高いことを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: \textit{Metric Differential Privacy} enables text-to-text privatization by
adding calibrated noise to the vector of a word derived from an embedding space
and projecting this noisy vector back to a discrete vocabulary using a nearest
neighbor search. Since words are substituted without context, this mechanism is
expected to fall short at finding substitutes for words with ambiguous
meanings, such as \textit{'bank'}. To account for these ambiguous words, we
leverage a sense embedding and incorporate a sense disambiguation step prior to
noise injection. We encompass our modification to the privatization mechanism
with an estimation of privacy and utility. For word sense disambiguation on the
\textit{Words in Context} dataset, we demonstrate a substantial increase in
classification accuracy by $6.05\%$.
- Abstract(参考訳): \textit{metric differential privacy} は、埋め込み空間から派生した単語のベクトルに校正されたノイズを追加し、このノイズベクトルを近接探索を用いて離散語彙に投影することで、テキスト対テキストの民営化を可能にする。
単語は文脈無しで置換されるため、このメカニズムは \textit{'bank'} のような曖昧な意味を持つ単語の代用品を見つけるのに不足することが期待される。
これらのあいまいな単語を考慮し,ノイズ注入前に感覚埋め込みを活用し,感覚曖昧化ステップを組み込む。
プライバシとユーティリティを見積もって,民営化機構への修正を包含しています。
textit{Words in Context}データセットにおける単語感覚の曖昧さについては、分類精度を6.05\%$で大幅に向上させる。
関連論文リスト
- $d_X$-Privacy for Text and the Curse of Dimensionality [4.372695214012181]
構造化されていないテキストデータのプライバシーを確保するために広く使われている方法は、$d_X$-privacyの多次元Laplaceメカニズムである。
単語単位で適用された場合、そのメカニズムは元の単語を出力するか、完全に異なる単語を出力する。
多次元ラプラス雑音ベクトルのドット積に任意の単語を埋め込むことが、近接する近傍を識別する上で重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2024-11-21T01:59:12Z) - A Collocation-based Method for Addressing Challenges in Word-level Metric Differential Privacy [3.0177210416625124]
ワードレベルの$textitMetric$ Differential Privacyアプローチが提案されている。
構成された民営化出力のセマンティックコヒーレンスと可変長を向上する手法を考案する。
本手法を実用性とプライバシテストで評価することにより,単語レベルを超えてトークン化戦略を明確にする。
論文 参考訳(メタデータ) (2024-06-30T09:37:34Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Guiding Text-to-Text Privatization by Syntax [0.0]
メトリック微分プライバシー(Metric Differential Privacy)は、テキストからテキストへのプライベート化というユニークな課題に対処するために設計された、差分プライバシーの一般化である。
置換後の単語の文法的カテゴリを保存するために,テキスト・テキスト・プライベート化の能力を分析する。
我々は、民営化のステップを、置換が一致した文法特性を持つ単語に向けられる候補選択問題に変換する。
論文 参考訳(メタデータ) (2023-06-02T11:52:21Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - An Iterative Contextualization Algorithm with Second-Order Attention [0.40611352512781856]
文を構成する単語の表現をまとまりのある全体にまとめる方法について説明します。
私たちのアルゴリズムは、おそらくコンテキストの誤った値から始まり、手元のトークンに関してこの値を調整します。
私たちのモデルは、よく知られたテキスト分類タスクで強い結果を報告します。
論文 参考訳(メタデータ) (2021-03-03T05:34:50Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z) - Towards Semantic Noise Cleansing of Categorical Data based on Semantic
Infusion [4.825584239754082]
文の物語に寄与しない用語の列として意味的雑音を定式化する。
本稿では,メタデータと分類コーパステキストを関連付けるセマンティック・インフュージョン手法を提案する。
本稿では,文脈を用いて意味雑音をフィルタリングするための教師なしテキスト前処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-06T13:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。