Fugu-MT 論文翻訳(概要): Authorship Attribution in Bangla Literature (AABL) via Transfer Learning using ULMFiT

論文の概要: Authorship Attribution in Bangla Literature (AABL) via Transfer Learning using ULMFiT

arxiv url: http://arxiv.org/abs/2403.05519v1
Date: Fri, 8 Mar 2024 18:42:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 12:45:12.810434
Title: Authorship Attribution in Bangla Literature (AABL) via Transfer Learning using ULMFiT
Title（参考訳）: ULMFiTを用いたトランスファーラーニングによるバングラ文学(AABL)の著者属性
Authors: Aisha Khatun, Anisur Rahman, Md Saiful Islam, Hemayet Ahmed Chowdhury, Ayesha Tasnim
Abstract要約: 著者属性(英: Authorship Attribution)とは、あるテキストの原作者を特定するために、テキストの適切な特徴づけを作成するタスクである。英語、スペイン語、中国語など他の言語にも大きな進歩があったが、バングラはこの分野の包括的な研究を欠いている。既存のシステムは、著者数が増えるとスケーラビリティが低下し、著者1人当たりのサンプル数が少なくなる。
参考スコア（独自算出の注目度）: 0.6919386619690135
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Authorship Attribution is the task of creating an appropriate characterization of text that captures the authors' writing style to identify the original author of a given piece of text. With increased anonymity on the internet, this task has become increasingly crucial in various security and plagiarism detection fields. Despite significant advancements in other languages such as English, Spanish, and Chinese, Bangla lacks comprehensive research in this field due to its complex linguistic feature and sentence structure. Moreover, existing systems are not scalable when the number of author increases, and the performance drops for small number of samples per author. In this paper, we propose the use of Average-Stochastic Gradient Descent Weight-Dropped Long Short-Term Memory (AWD-LSTM) architecture and an effective transfer learning approach that addresses the problem of complex linguistic features extraction and scalability for authorship attribution in Bangla Literature (AABL). We analyze the effect of different tokenization, such as word, sub-word, and character level tokenization, and demonstrate the effectiveness of these tokenizations in the proposed model. Moreover, we introduce the publicly available Bangla Authorship Attribution Dataset of 16 authors (BAAD16) containing 17,966 sample texts and 13.4+ million words to solve the standard dataset scarcity problem and release six variations of pre-trained language models for use in any Bangla NLP downstream task. For evaluation, we used our developed BAAD16 dataset as well as other publicly available datasets. Empirically, our proposed model outperformed state-of-the-art models and achieved 99.8% accuracy in the BAAD16 dataset. Furthermore, we showed that the proposed system scales much better even with an increasing number of authors, and performance remains steady despite few training samples.
Abstract（参考訳）: 著者の帰属(authorship attribution)は、著者の執筆スタイルを捉えたテキストの適切なキャラクタリゼーションを作成し、与えられたテキストの原作者を識別するタスクである。インターネット上の匿名性の向上に伴い、このタスクは様々なセキュリティや盗作検出分野でますます重要になっている。英語、スペイン語、中国語などの他言語での大幅な進歩にもかかわらず、バングラは複雑な言語的特徴と文構造のため、この分野における包括的な研究を欠いている。さらに、著者数が増えると既存のシステムは拡張性がなく、著者1人当たりのサンプル数が少ないと性能が低下する。本稿では、AWD-LSTMアーキテクチャと、バングラ文学(AABL)における著者帰属のための複雑な言語的特徴抽出とスケーラビリティの問題に対処する効果的な伝達学習手法を提案する。単語,サブワード,文字レベルのトークン化などの異なるトークン化の効果を分析し,提案モデルにおけるトークン化の有効性を示す。さらに、標準データセット不足問題を解決するために、17,966のサンプルテキストと13.4百万語を含む16名の著者のBangla Authorship Attribution Dataset(BAAD16)を導入し、任意のBangla NLPダウンストリームタスクで使用する事前学習言語モデルの6つのバリエーションをリリースする。評価のために開発したBAAD16データセットと他の公開データセットを使用しました。実験により,提案モデルは最先端モデルより優れ,BAAD16データセットの精度は99.8%向上した。さらに,本システムでは,著者数が増えても性能が向上し,トレーニングサンプルが少ないにもかかわらず,性能が安定していることを示した。

関連論文リスト

A Comparative Study of Task Adaptation Techniques of Large Language Models for Identifying Sustainable Development Goals [39.71115518041856]
本研究では,国連の持続可能な開発目標に焦点をあてた,単一ラベルの多クラステキスト分類タスクを対象とした,プロプライエタリでオープンソースのテキスト分類モデルについて分析する。その結果、より小さなモデルでは、プロンプトエンジニアリングによって最適化された場合、OpenAIのGPTのような大きなモデルと同等に動作できることが判明した。
論文参考訳（メタデータ） (2025-06-18T07:42:32Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。 IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文参考訳（メタデータ） (2024-10-29T04:14:23Z)
Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文参考訳（メタデータ） (2024-02-27T14:16:19Z)
LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文参考訳（メタデータ） (2024-02-22T14:19:56Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文参考訳（メタデータ） (2023-08-23T14:18:44Z)
A Unified Neural Network Model for Readability Assessment with Feature Projection and Length-Balanced Loss [17.213602354715956]
本稿では,可読性評価のための特徴投影と長さバランス損失を考慮したBERTモデルを提案する。本モデルは,2つの英語ベンチマークデータセットと1つの中国語教科書データセットを用いて,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-19T05:33:27Z)
PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文参考訳（メタデータ） (2022-09-30T11:08:39Z)
Transferring BERT-like Transformers' Knowledge for Authorship Verification [8.443350618722562]
著者確認作業におけるBERT様変圧器の有効性について検討した。我々はPAN-2020の新しいスプリットを提供し、不連続なトピックや著者からトレーニングデータとテストデータをサンプリングする。これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。
論文参考訳（メタデータ） (2021-12-09T18:57:29Z)
Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文参考訳（メタデータ） (2021-10-04T08:51:36Z)
Offline Handwritten Chinese Text Recognition with Convolutional Neural Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。 ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文参考訳（メタデータ） (2020-06-28T14:34:38Z)
Authorship Attribution in Bangla literature using Character-level CNN [0.5243460995467893]
バングラ文学の著者属性における文字レベル信号の有効性について検討する。提案するモデルの時間とメモリ効率は,単語レベルよりもはるかに高い。事前トレーニングでは最大10%パフォーマンスが向上している。
論文参考訳（メタデータ） (2020-01-11T14:54:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。