論文の概要: Deep Bayes Factor Scoring for Authorship Verification
- arxiv url: http://arxiv.org/abs/2008.10105v1
- Date: Sun, 23 Aug 2020 21:00:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 02:35:57.125960
- Title: Deep Bayes Factor Scoring for Authorship Verification
- Title(参考訳): 著者認証のためのDeep Bayes Factor Scoring
- Authors: Benedikt Boenninghoff and Julian Rupp and Robert M. Nickel and
Dorothea Kolossa
- Abstract要約: 2つのよく知られたアプローチを1つのエンドツーエンドの学習手順に階層的に融合させる。
底辺の深い計量学習フレームワークは、可変長の文書を固定サイズの特徴ベクトルにマッピングする擬似メトリックを学習することを目的としている。
上位には確率層を組み込んで、学習された計量空間におけるベイズ係数のスコアリングを行う。
- 参考スコア(独自算出の注目度): 10.405174977499497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The PAN 2020 authorship verification (AV) challenge focuses on a
cross-topic/closed-set AV task over a collection of fanfiction texts.
Fanfiction is a fan-written extension of a storyline in which a so-called
fandom topic describes the principal subject of the document. The data provided
in the PAN 2020 AV task is quite challenging because authors of texts across
multiple/different fandom topics are included. In this work, we present a
hierarchical fusion of two well-known approaches into a single end-to-end
learning procedure: A deep metric learning framework at the bottom aims to
learn a pseudo-metric that maps a document of variable length onto a
fixed-sized feature vector. At the top, we incorporate a probabilistic layer to
perform Bayes factor scoring in the learned metric space. We also provide text
preprocessing strategies to deal with the cross-topic issue.
- Abstract(参考訳): pan 2020 authorship verification (av) challengeは、ファンフィクションテキストのコレクションよりも、クロストピック/クローズドセットavタスクに焦点を当てている。
fanfiction(ファンファイクション)は、いわゆるfandomトピックが文書の主要な主題を記述した、ストーリーラインのファンライクな拡張である。
pan 2020 avタスクで提供されるデータは、複数の異なるファンダムトピックにまたがるテキストの作成者が含まれているため、非常に難しい。
本稿では,2つのよく知られたアプローチを1つのエンドツーエンド学習手順に階層的に融合することを提案する。 底辺の深いメトリック学習フレームワークは,可変長の文書を固定サイズの特徴ベクトルにマッピングする擬似メトリックを学習することを目的としている。
上位には確率層を組み込んで、学習された計量空間におけるベイズ係数のスコアリングを行う。
また、横断的な問題に対処するためのテキスト前処理戦略も提供します。
関連論文リスト
- TegFormer: Topic-to-Essay Generation with Good Topic Coverage and High
Text Coherence [8.422108048684215]
本稿では,トピック・ツー・エッセイ生成のための新しいアプローチであるTegFormerを提案する。
emphTopic-Extensionレイヤは、与えられたトピックとドメイン固有のコンテキストの間のインタラクションをキャプチャする。
emphEmbedding-Fusionモジュールは、与えられたコーパスから学習したドメイン固有の単語埋め込みと、大量のテキストデータに基づいて事前訓練されたGPT-2モデルによって提供される汎用単語埋め込みとを組み合わせる。
論文 参考訳(メタデータ) (2022-12-27T11:50:14Z) - Summarization with Graphical Elements [55.5913491389047]
本稿では,グラフィカル要素による要約という新しい課題を提案する。
タスクの研究を支援するために,高品質なラベル付きデータセットを収集する。
論文 参考訳(メタデータ) (2022-04-15T17:16:41Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - The Topic Confusion Task: A Novel Scenario for Authorship Attribution [0.0]
著者の帰属(authorship attribution)は、候補者の著者群から匿名のテキストの最も信頼できる著者を特定する問題である。
そこで本稿では,著者とトピックの構成をトレーニングとテストセットに切り替えるemphtopic confusionタスクを提案する。
特徴の異なる特徴を評価した結果, 話題の変動の影響を受けにくく, 帰属過程の精度を高めることができることがわかった。
論文 参考訳(メタデータ) (2021-04-17T12:50:58Z) - Topic Scaling: A Joint Document Scaling -- Topic Model Approach To Learn
Time-Specific Topics [0.0]
本稿では,文書位置の尺度から時間に基づくトピックを学習する2段階アルゴリズムを実装し,シーケンシャルコーパスを研究する新しい手法を提案する。
最初の段階はWordfishを使用してドキュメントをランク付けし、関連するトピックを学ぶために依存変数として機能する文書の位置を推定します。
第二段階は、コーパス内のそれらの発生と一致するように文書スケール上の推論されたトピックをランク付けし、それらの進化を追跡します。
論文 参考訳(メタデータ) (2021-03-31T12:35:36Z) - DeepStyle: User Style Embedding for Authorship Attribution of Short
Texts [57.503904346336384]
オーサシップアトリビューション(AA)は、多くのアプリケーションで重要で広く研究されている研究トピックです。
近年の研究では、深層学習がAAタスクの精度を大幅に向上させることが示されている。
本稿では,ユーザの健全な書き込みスタイルの表現を学習する新しい埋め込み型フレームワークであるDeepStyleを提案する。
論文 参考訳(メタデータ) (2021-03-14T15:56:37Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Semantic Graphs for Generating Deep Questions [98.5161888878238]
本稿では、まず、入力文書のセマンティックレベルグラフを構築し、次にアテンションベースのGGNN(Att-GGNN)を導入してセマンティックグラフを符号化する新しいフレームワークを提案する。
HotpotQAのDeep-question中心のデータセットでは、複数の事実の推論を必要とする問題よりもパフォーマンスが大幅に向上し、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-04-27T10:52:52Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。