論文の概要: Separating Style from Substance: Enhancing Cross-Genre Authorship Attribution through Data Selection and Presentation
- arxiv url: http://arxiv.org/abs/2408.05192v1
- Date: Fri, 9 Aug 2024 17:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:05:23.686050
- Title: Separating Style from Substance: Enhancing Cross-Genre Authorship Attribution through Data Selection and Presentation
- Title(参考訳): サブスタンスからの分離スタイル:データ選択とプレゼンテーションによるクロスジェネリックなオーサリング属性の強化
- Authors: Steven Fincke, Elizabeth Boschee,
- Abstract要約: 2つの文書は異なるジャンルで同じ著者によって書かれています。
マシンにとって問題は、トピック境界を越えた実世界のトレーニング例の相対的欠如によって複雑である。
本研究では,データ選択を学習するためのターゲット手法と,新しい学習カリキュラムを提案する。
- 参考スコア(独自算出の注目度): 5.104597709908276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of deciding whether two documents are written by the same author is challenging for both machines and humans. This task is even more challenging when the two documents are written about different topics (e.g. baseball vs. politics) or in different genres (e.g. a blog post vs. an academic article). For machines, the problem is complicated by the relative lack of real-world training examples that cross the topic boundary and the vanishing scarcity of cross-genre data. We propose targeted methods for training data selection and a novel learning curriculum that are designed to discourage a model's reliance on topic information for authorship attribution and correspondingly force it to incorporate information more robustly indicative of style no matter the topic. These refinements yield a 62.7% relative improvement in average cross-genre authorship attribution, as well as 16.6% in the per-genre condition.
- Abstract(参考訳): 2つの文書が同じ著者によって書かれたかどうかを判断する作業は、機械と人間の両方にとって困難である。
このタスクは、2つの文書が異なるトピック(例えば野球対政治)について書かれたり、異なるジャンル(例えばブログ記事対学術論文)で書かれた場合、さらに難しい。
マシンにとって問題は、トピック境界を越えた実世界のトレーニング例の相対的欠如と、クロスジェンレデータの欠如によって複雑である。
著者帰属に関する話題情報への依存を回避し,それに応じて,そのトピックがどうであれ,より強固にスタイルを示す情報を組み込むことを強制する,データ選択の訓練方法と新しい学習カリキュラムを提案する。
これらの改良により、平均的なクロスジャンルの著者の属性が62.7%向上し、また、世代ごとの条件が16.6%向上した。
関連論文リスト
- Improve Meta-learning for Few-Shot Text Classification with All You Can Acquire from the Tasks [10.556477506959888]
既存の手法は、しばしばサポートセットのサンプルから正確なクラスプロトタイプを描くのに困難に遭遇する。
近年のアプローチでは、外部知識や事前訓練された言語モデルを組み込んでデータを拡張しようとするが、追加のリソースが必要になる。
本稿では,タスク自体の情報を適切に活用した新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-14T12:47:11Z) - Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文 参考訳(メタデータ) (2024-03-27T09:21:07Z) - BERT Goes Off-Topic: Investigating the Domain Transfer Challenge using
Genre Classification [0.27195102129095]
トピックの分布が変化すると、分類タスクは依然としてパフォーマンスのギャップに悩まされる。
我々はこの現象を、大きなコーパスと大きなトピックセットで実証的に定量化する。
学習データセットを局所的に制御された合成テキストで強化した後、いくつかのトピックでF1スコアは最大50%改善する。
論文 参考訳(メタデータ) (2023-11-27T18:53:31Z) - Cross Encoding as Augmentation: Towards Effective Educational Text
Classification [9.786833703453741]
本稿では,教育用テキスト分類における効果的な学習を支援する新しい検索手法CEAAを提案する。
主な貢献は次の通りである: 1) 質問応答データセットからの移動学習を活用し、2) 単純だが効果的なデータ拡張法を提案する。
論文 参考訳(メタデータ) (2023-05-30T12:19:30Z) - Hawk: An Industrial-strength Multi-label Document Classifier [0.0]
本稿では,これらの問題の重要性を詳述し,上記の問題に対処する独自のニューラルネットワークアーキテクチャを提案する。
ハイドラネットのようなアーキテクチャは、モジュール性を改善するための粒度の制御と、重み付けされた損失駆動タスク固有のヘッドを備えるように設計されている。
実験結果から,提案手法は既存の手法よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2023-01-15T09:52:18Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Revisiting Rashomon: A Comment on "The Two Cultures" [95.81740983484471]
Breiman氏は「Rashomon Effect」と呼び、予測精度基準を等しく満たす多くのモデルが存在するが、情報を実質的に異なる方法で処理する状況について説明した。
この現象は、データに適合するモデルに基づいて結論を導き出すか、意思決定を自動化することを困難にします。
私は、この問題の意義を探求する機械学習文学における最近の研究と関係しています。
論文 参考訳(メタデータ) (2021-04-05T20:51:58Z) - Conditioned Text Generation with Transfer for Closed-Domain Dialogue
Systems [65.48663492703557]
条件付き変分オートエンコーダを用いて,意図特化文の生成を最適に学習し,制御する方法を示す。
クエリ転送と呼ばれる新しいプロトコルを導入し、大規模で遅延のないデータセットを活用できるようにします。
論文 参考訳(メタデータ) (2020-11-03T14:06:10Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。