論文の概要: The Importance of Suppressing Domain Style in Authorship Analysis
- arxiv url: http://arxiv.org/abs/2005.14714v1
- Date: Fri, 29 May 2020 17:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 23:32:34.381175
- Title: The Importance of Suppressing Domain Style in Authorship Analysis
- Title(参考訳): オーサシップ分析におけるドメインスタイル抑制の重要性
- Authors: Sebastian Bischoff, Niklas Deckers, Marcel Schliebs, Ben Thies,
Matthias Hagen, Efstathios Stamatatos, Benno Stein, Martin Potthast
- Abstract要約: 文字トリグラムの特徴は, ドメインに注意を払わずに適用した場合, ドメイン情報に好適であることが示唆された。
本稿では,ドメイン・アドバイザリ・ラーニングに基づく新たな治療法を提案し,それを周波数に基づく文献と比較する。
- 参考スコア(独自算出の注目度): 29.62131106353095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prerequisite of many approaches to authorship analysis is a
representation of writing style. But despite decades of research, it still
remains unclear to what extent commonly used and widely accepted
representations like character trigram frequencies actually represent an
author's writing style, in contrast to more domain-specific style components or
even topic. We address this shortcoming for the first time in a novel
experimental setup of fixed authors but swapped domains between training and
testing. With this setup, we reveal that approaches using character trigram
features are highly susceptible to favor domain information when applied
without attention to domains, suffering drops of up to 55.4 percentage points
in classification accuracy under domain swapping. We further propose a new
remedy based on domain-adversarial learning and compare it to ones from the
literature based on heuristic rules. Both can work well, reducing accuracy
losses under domain swapping to 3.6% and 3.9%, respectively.
- Abstract(参考訳): 著者分析への多くのアプローチの前提は、執筆様式の表現である。
しかし、数十年にわたる研究にもかかわらず、文字のトリグラム周波数のような広く受け入れられた表現が、ドメイン固有のスタイルコンポーネントやトピックとは対照的に、実際に著者の文体を表しているかどうかはまだ不明である。
固定された著者の新たな実験的なセットアップにおいて、この欠点に初めて対処するが、トレーニングとテストの間にドメインを交換する。
この設定により、ドメインに注意を払わずに適用した場合、文字トリグラム特徴を用いたアプローチは、ドメインスワップによる分類精度の最大55.4ポイントの低下に悩まされる。
さらに,ドメイン・アドバイザリ・ラーニングに基づく新たな治療法を提案し,ヒューリスティック・ルールに基づく文献と比較する。
どちらもうまく動作し、ドメインスワップ時の精度損失を3.6%と3.9%に削減できる。
関連論文リスト
- ReMask: A Robust Information-Masking Approach for Domain Counterfactual
Generation [16.275230631985824]
ドメインのカウンターファクト生成は、テキストをソースドメインから特定のターゲットドメインに変換することを目的としています。
我々は、周波数とアテンションノルムに基づくマスキングを含む3段階のドメイン難読化アプローチを用いて、ドメイン固有のキューをマスキングし、ドメインの一般的なコンテキストを復元する。
本モデルは, 対向領域適応設定における平均精度を1.4%向上させることにより, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2023-05-04T14:19:02Z) - Feature Stylization and Domain-aware Contrastive Learning for Domain
Generalization [10.027279853737511]
ドメインの一般化は、ターゲットドメインにアクセスすることなく、ドメインシフトに対するモデルを強化することを目的としている。
本稿では,特徴統計を利用して特徴を新しいドメイン特性に分類する新しいフレームワークを提案する。
提案したドメイン認識による教師付きコントラスト損失との特徴的整合性を実現する。
論文 参考訳(メタデータ) (2021-08-19T10:04:01Z) - Domain Adaptation for Semantic Segmentation via Patch-Wise Contrastive
Learning [62.7588467386166]
ドメイン間で構造的に類似するラベルパッチの機能を調整することで、ドメインギャップを埋めるためにコントラスト学習を利用する。
私たちのアプローチは、常に2つの困難なドメイン適応セグメンテーションタスクにおいて、最先端の非監視および半監督メソッドを上回ります。
論文 参考訳(メタデータ) (2021-04-22T13:39:12Z) - Learning to Share by Masking the Non-shared for Multi-domain Sentiment
Classification [24.153584996936424]
テキストからドメイン関連語を明示的にマスキングし,これらのドメインに依存しないテキストからドメイン不変感の特徴を学習し,それらのマスキング語を用いてドメイン認識文表現を形成するネットワークを提案する。
適応度の高い複数領域感情分類データセットの実証実験により,提案モデルの有効性が実証された。
論文 参考訳(メタデータ) (2021-04-17T08:15:29Z) - Prototypical Cross-domain Self-supervised Learning for Few-shot
Unsupervised Domain Adaptation [91.58443042554903]
FUDA(Unsupervised Domain Adaptation)のためのPCS(Prototypical Cross-Domain Self-Supervised Learning)フレームワークを提案する。
PCSは、クロスドメインのローレベルな機能アライメントを行うだけでなく、ドメイン間の共有埋め込み空間におけるセマンティック構造をエンコードおよびアライメントする。
最新の手法と比較して、pcsは、fuda上の異なるドメインペアの平均分類精度を10.5%、office、office-home、visda-2017、domainnetで3.5%、9.0%、13.2%改善している。
論文 参考訳(メタデータ) (2021-03-31T02:07:42Z) - Curriculum CycleGAN for Textual Sentiment Domain Adaptation with
Multiple Sources [68.31273535702256]
我々は,C-CycleGAN(C-CycleGAN)という,新しいインスタンスレベルのMDAフレームワークを提案する。
C-CycleGANは、(1)異なるドメインからのテキスト入力を連続的な表現空間にエンコードする事前訓練されたテキストエンコーダ、(2)ソースとターゲットドメイン間のギャップを埋めるカリキュラムインスタンスレベルの適応を伴う中間ドメインジェネレータ、(3)中間ドメインで最終感情分類のために訓練されたタスク分類器の3つのコンポーネントから構成される。
3つのベンチマークデータセットに対して広範な実験を行い、最先端のDAアプローチよりも大幅に向上した。
論文 参考訳(メタデータ) (2020-11-17T14:50:55Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z) - Domain Adaptation for Semantic Parsing [68.81787666086554]
本稿では,ドメイン適応のための新しいセマンティクスを提案する。このセマンティクスでは,ソースドメインと比較して,対象ドメインのアノテーション付きデータがはるかに少ない。
我々のセマンティックな利点は、2段階の粗大なフレームワークから得ており、2段階の異なる正確な処理を提供できる。
ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-06-23T14:47:41Z) - Domain-based Latent Personal Analysis and its use for impersonation
detection in social media [0.0]
我々は、ドメイン内のエンティティに対するドメインベースの属性を見つける方法、Latent Personal Analysisを考案した。
ドメイン内では、著者の署名は、緩やかな言葉で、著者の欠落した人気語と、頻繁な単語から導き出すことができる。
著者の帰属を説明するために,本手法の活用例を示す。
論文 参考訳(メタデータ) (2020-04-05T23:00:09Z) - Cross-domain Self-supervised Learning for Domain Adaptation with Few
Source Labels [78.95901454696158]
ドメイン適応のためのクロスドメイン自己教師型学習手法を提案する。
本手法は,ソースラベルが少ない新しいターゲット領域において,ターゲット精度を著しく向上させる。
論文 参考訳(メタデータ) (2020-03-18T15:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。