論文の概要: Authorship Attribution in Bangla Literature (AABL) via Transfer Learning
using ULMFiT
- arxiv url: http://arxiv.org/abs/2403.05519v1
- Date: Fri, 8 Mar 2024 18:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 12:45:12.810434
- Title: Authorship Attribution in Bangla Literature (AABL) via Transfer Learning
using ULMFiT
- Title(参考訳): ULMFiTを用いたトランスファーラーニングによるバングラ文学(AABL)の著者属性
- Authors: Aisha Khatun, Anisur Rahman, Md Saiful Islam, Hemayet Ahmed Chowdhury,
Ayesha Tasnim
- Abstract要約: 著者属性(英: Authorship Attribution)とは、あるテキストの原作者を特定するために、テキストの適切な特徴づけを作成するタスクである。
英語、スペイン語、中国語など他の言語にも大きな進歩があったが、バングラはこの分野の包括的な研究を欠いている。
既存のシステムは、著者数が増えるとスケーラビリティが低下し、著者1人当たりのサンプル数が少なくなる。
- 参考スコア(独自算出の注目度): 0.6919386619690135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Authorship Attribution is the task of creating an appropriate
characterization of text that captures the authors' writing style to identify
the original author of a given piece of text. With increased anonymity on the
internet, this task has become increasingly crucial in various security and
plagiarism detection fields. Despite significant advancements in other
languages such as English, Spanish, and Chinese, Bangla lacks comprehensive
research in this field due to its complex linguistic feature and sentence
structure. Moreover, existing systems are not scalable when the number of
author increases, and the performance drops for small number of samples per
author. In this paper, we propose the use of Average-Stochastic Gradient
Descent Weight-Dropped Long Short-Term Memory (AWD-LSTM) architecture and an
effective transfer learning approach that addresses the problem of complex
linguistic features extraction and scalability for authorship attribution in
Bangla Literature (AABL). We analyze the effect of different tokenization, such
as word, sub-word, and character level tokenization, and demonstrate the
effectiveness of these tokenizations in the proposed model. Moreover, we
introduce the publicly available Bangla Authorship Attribution Dataset of 16
authors (BAAD16) containing 17,966 sample texts and 13.4+ million words to
solve the standard dataset scarcity problem and release six variations of
pre-trained language models for use in any Bangla NLP downstream task. For
evaluation, we used our developed BAAD16 dataset as well as other publicly
available datasets. Empirically, our proposed model outperformed
state-of-the-art models and achieved 99.8% accuracy in the BAAD16 dataset.
Furthermore, we showed that the proposed system scales much better even with an
increasing number of authors, and performance remains steady despite few
training samples.
- Abstract(参考訳): 著者の帰属(authorship attribution)は、著者の執筆スタイルを捉えたテキストの適切なキャラクタリゼーションを作成し、与えられたテキストの原作者を識別するタスクである。
インターネット上の匿名性の向上に伴い、このタスクは様々なセキュリティや盗作検出分野でますます重要になっている。
英語、スペイン語、中国語などの他言語での大幅な進歩にもかかわらず、バングラは複雑な言語的特徴と文構造のため、この分野における包括的な研究を欠いている。
さらに、著者数が増えると既存のシステムは拡張性がなく、著者1人当たりのサンプル数が少ないと性能が低下する。
本稿では、AWD-LSTMアーキテクチャと、バングラ文学(AABL)における著者帰属のための複雑な言語的特徴抽出とスケーラビリティの問題に対処する効果的な伝達学習手法を提案する。
単語,サブワード,文字レベルのトークン化などの異なるトークン化の効果を分析し,提案モデルにおけるトークン化の有効性を示す。
さらに、標準データセット不足問題を解決するために、17,966のサンプルテキストと13.4百万語を含む16名の著者のBangla Authorship Attribution Dataset(BAAD16)を導入し、任意のBangla NLPダウンストリームタスクで使用する事前学習言語モデルの6つのバリエーションをリリースする。
評価のために開発したBAAD16データセットと他の公開データセットを使用しました。
実験により,提案モデルは最先端モデルより優れ,BAAD16データセットの精度は99.8%向上した。
さらに,本システムでは,著者数が増えても性能が向上し,トレーニングサンプルが少ないにもかかわらず,性能が安定していることを示した。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - A Unified Neural Network Model for Readability Assessment with Feature
Projection and Length-Balanced Loss [17.213602354715956]
本稿では,可読性評価のための特徴投影と長さバランス損失を考慮したBERTモデルを提案する。
本モデルは,2つの英語ベンチマークデータセットと1つの中国語教科書データセットを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-19T05:33:27Z) - Transferring BERT-like Transformers' Knowledge for Authorship
Verification [8.443350618722562]
著者確認作業におけるBERT様変圧器の有効性について検討した。
我々はPAN-2020の新しいスプリットを提供し、不連続なトピックや著者からトレーニングデータとテストデータをサンプリングする。
これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:57:29Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z) - Authorship Attribution in Bangla literature using Character-level CNN [0.5243460995467893]
バングラ文学の著者属性における文字レベル信号の有効性について検討する。
提案するモデルの時間とメモリ効率は,単語レベルよりもはるかに高い。
事前トレーニングでは最大10%パフォーマンスが向上している。
論文 参考訳(メタデータ) (2020-01-11T14:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。