論文の概要: Isolating authorship from content with semantic embeddings and contrastive learning
- arxiv url: http://arxiv.org/abs/2411.18472v1
- Date: Wed, 27 Nov 2024 16:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:21.082873
- Title: Isolating authorship from content with semantic embeddings and contrastive learning
- Title(参考訳): セマンティック埋め込みとコントラスト学習によるコンテンツからの著者の隔離
- Authors: Javier Huertas-Tato, Adrián Girón-Jiménez, Alejandro Martín, David Camacho,
- Abstract要約: 作者は内部にスタイルとコンテンツが絡み合っている。
本稿では,意味的類似性モデルを用いて合成的に生成した強みを付加したコントラスト学習手法を提案する。
この切り離し技術は、コンテンツ埋め込み空間をスタイル埋め込み空間から遠ざけることを目的としており、スタイル埋め込みをより情報伝達する。
- 参考スコア(独自算出の注目度): 49.15148871877941
- License:
- Abstract: Authorship has entangled style and content inside. Authors frequently write about the same topics in the same style, so when different authors write about the exact same topic the easiest way out to distinguish them is by understanding the nuances of their style. Modern neural models for authorship can pick up these features using contrastive learning, however, some amount of content leakage is always present. Our aim is to reduce the inevitable impact and correlation between content and authorship. We present a technique to use contrastive learning (InfoNCE) with additional hard negatives synthetically created using a semantic similarity model. This disentanglement technique aims to distance the content embedding space from the style embedding space, leading to embeddings more informed by style. We demonstrate the performance with ablations on two different datasets and compare them on out-of-domain challenges. Improvements are clearly shown on challenging evaluations on prolific authors with up to a 10% increase in accuracy when the settings are particularly hard. Trials on challenges also demonstrate the preservation of zero-shot capabilities of this method as fine tuning.
- Abstract(参考訳): 作者は内部にスタイルとコンテンツが絡み合っている。
著者は、同じトピックを同じスタイルで書くことが多いので、異なる著者が同じトピックについて書くとき、それらを区別する最も簡単な方法は、それぞれのスタイルのニュアンスを理解することである。
著者のための現代のニューラルネットワークは、対照的な学習によってこれらの特徴を拾い上げることができるが、コンテンツ漏洩は必ず存在する。
私たちの目標は、コンテンツと著者間の必然的な影響と相関を減らすことです。
本稿では,意味的類似性モデルを用いて合成された付加的な強みを持つコントラスト学習(InfoNCE)を用いる手法を提案する。
この切り離し技術は、コンテンツ埋め込み空間をスタイル埋め込み空間から遠ざけることを目的としており、スタイル埋め込みをより情報伝達する。
2つの異なるデータセットでアブリケーションを使用してパフォーマンスを実証し、ドメイン外の課題でそれらを比較します。
設定が特に難しい場合、最大10%の精度で、多作の著者に対して挑戦的な評価を行う上で、改善が明らかに示される。
課題に関する試行は、この手法のゼロショット能力の保存を微調整として示す。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - StyleDistance: Stronger Content-Independent Style Embeddings with Synthetic Parallel Examples [48.44036251656947]
スタイル表現は、内容に関係なく、類似した書体スタイルのテキストを密に埋め込み、異なる書体スタイルのテキストを遠くに埋め込むことを目的としている。
より強力なコンテンツに依存しないスタイル埋め込みをトレーニングするための新しいアプローチであるStyleDistanceを紹介する。
論文 参考訳(メタデータ) (2024-10-16T17:25:25Z) - Self-Supervised Disentanglement by Leveraging Structure in Data Augmentations [63.73044203154743]
自己教師付き表現学習は、しばしばデータの「スタイル」属性を誘導するためにデータ拡張を使用する。
データの属性が実際に"スタイル"であり、安全に破棄されるような先入観を推論することは困難である。
スタイル機能を捨てるよりも、スタイル機能を切り離そうとする、より原則化されたアプローチを導入します。
論文 参考訳(メタデータ) (2023-11-15T09:34:08Z) - ALADIN-NST: Self-supervised disentangled representation learning of
artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。
スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文 参考訳(メタデータ) (2023-04-12T10:33:18Z) - Whodunit? Learning to Contrast for Authorship Attribution [22.37948005237967]
著者の属性は、与えられたテキストの著者を特定するタスクである。
コントラスト学習と教師あり学習を組み合わせて,事前学習した言語表現を微調整する。
コントラXは、複数の人間と機械のオーサシップ属性のベンチマークで最先端の手法を推し進めていることを示す。
論文 参考訳(メタデータ) (2022-09-23T23:45:08Z) - CLLD: Contrastive Learning with Label Distance for Text Classificatioin [0.6299766708197883]
コントラストクラスを学習するためのCLLD(Contrastive Learning with Label Distance)を提案する。
CLLDは、ラベルの割り当てに繋がる微妙な違いの中で、柔軟性を保証する。
実験の結果,学習したラベル距離は,クラス間の対立性を緩和することが示唆された。
論文 参考訳(メタデータ) (2021-10-25T07:07:14Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。