論文の概要: Datasets and Models for Authorship Attribution on Italian Personal
Writings
- arxiv url: http://arxiv.org/abs/2011.07975v1
- Date: Mon, 16 Nov 2020 14:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 00:16:10.037170
- Title: Datasets and Models for Authorship Attribution on Italian Personal
Writings
- Title(参考訳): イタリアの個人著作における著者属性のデータセットとモデル
- Authors: Gaetana Ruggiero, Albert Gatt, Malvina Nissim
- Abstract要約: 我々は2つの新しいデータセットで短いイタリア語のテキストのオーサシップ検証を通じてAAにアプローチする。
ジェンダーとトピックは暗示的な手がかりになり得るし、もし制御されないなら、彼らは個人的なスタイルのより具体的な側面を超越するかもしれない。
- 参考スコア(独自算出の注目度): 12.4543414590979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing research on Authorship Attribution (AA) focuses on texts for which a
lot of data is available (e.g novels), mainly in English. We approach AA via
Authorship Verification on short Italian texts in two novel datasets, and
analyze the interaction between genre, topic, gender and length. Results show
that AV is feasible even with little data, but more evidence helps. Gender and
topic can be indicative clues, and if not controlled for, they might overtake
more specific aspects of personal style.
- Abstract(参考訳): 著者の帰属に関する既存の研究(aa)は、多くのデータ(小説など)が英語を中心に利用できるテキストに焦点を当てている。
我々は2つの新しいデータセットで短いイタリア語のテキストについてAAにアプローチし、ジャンル、話題、性別、長さの相互作用を分析する。
結果は、avはわずかなデータでも実現可能だが、より多くの証拠が役立つことを示している。
性別や話題は手掛かりとなり得るし、もし制御されていない場合は、パーソナルスタイルをより具体的な側面に取って代わることができる。
関連論文リスト
- LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - T5 meets Tybalt: Author Attribution in Early Modern English Drama Using
Large Language Models [4.2243058640527575]
大規模言語モデルは、多くのNLPドメインにおいてブレークスルーの可能性を示している。
現代英語ドラマにおけるテクスチャロメトリー、特に著者識別について検討する。
LLMは驚くほど短い文の著者を正確に予測できるが、特定の著者に自信を持ってテキストを誤帰させる傾向がある。
論文 参考訳(メタデータ) (2023-10-27T20:04:57Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - Personality Understanding of Fictional Characters during Book Reading [81.68515671674301]
この問題に対する最初のラベル付きデータセットPersoNetを提示する。
当社の新たなアノテーション戦略では,オリジナル書籍のプロキシとして,オンライン読書アプリからユーザノートを注釈付けします。
実験と人間の研究は、データセットの構築が効率的かつ正確であることを示している。
論文 参考訳(メタデータ) (2023-05-17T12:19:11Z) - BERT-based Authorship Attribution on the Romanian Dataset called ROST [0.0]
我々はルーマニア語で書かれたテキストの著者数を検出するためにモデルを使用する。
使用するデータセットはバランスが悪く、すなわち著者1人当たりのテキスト数に大きな違いがある。
結果は予想より優れており、マクロ精度は87%を超えることもある。
論文 参考訳(メタデータ) (2023-01-29T17:37:29Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - LG4AV: Combining Language Models and Graph Neural Networks for Author
Verification [0.11421942894219898]
本稿では,著者検証のための言語モデルとグラフニューラルネットワークを組み合わせたLG4AVを提案する。
トレーニング済みのトランスフォーマーアーキテクチャで利用可能なテキストを直接供給することで、我々のモデルは手作りのスタイル幾何学的特徴を一切必要としない。
我々のモデルは、検証プロセスに関して意味のある著者間の関係から恩恵を受けることができる。
論文 参考訳(メタデータ) (2021-09-03T12:45:28Z) - DeepStyle: User Style Embedding for Authorship Attribution of Short
Texts [57.503904346336384]
オーサシップアトリビューション(AA)は、多くのアプリケーションで重要で広く研究されている研究トピックです。
近年の研究では、深層学習がAAタスクの精度を大幅に向上させることが示されている。
本稿では,ユーザの健全な書き込みスタイルの表現を学習する新しい埋め込み型フレームワークであるDeepStyleを提案する。
論文 参考訳(メタデータ) (2021-03-14T15:56:37Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。