論文の概要: Authorship Attribution in Bangla literature using Character-level CNN
- arxiv url: http://arxiv.org/abs/2001.05316v1
- Date: Sat, 11 Jan 2020 14:54:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 09:27:19.303738
- Title: Authorship Attribution in Bangla literature using Character-level CNN
- Title(参考訳): 文字レベルCNNを用いたバングラ文学における著者属性
- Authors: Aisha Khatun, Anisur Rahman, Md. Saiful Islam, Marium-E-Jannat
- Abstract要約: バングラ文学の著者属性における文字レベル信号の有効性について検討する。
提案するモデルの時間とメモリ効率は,単語レベルよりもはるかに高い。
事前トレーニングでは最大10%パフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 0.5243460995467893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Characters are the smallest unit of text that can extract stylometric signals
to determine the author of a text. In this paper, we investigate the
effectiveness of character-level signals in Authorship Attribution of Bangla
Literature and show that the results are promising but improvable. The time and
memory efficiency of the proposed model is much higher than the word level
counterparts but accuracy is 2-5% less than the best performing word-level
models. Comparison of various word-based models is performed and shown that the
proposed model performs increasingly better with larger datasets. We also
analyze the effect of pre-training character embedding of diverse Bangla
character set in authorship attribution. It is seen that the performance is
improved by up to 10% on pre-training. We used 2 datasets from 6 to 14 authors,
balancing them before training and compare the results.
- Abstract(参考訳): 文字はテキストの最小単位であり、テクストの著者を決定するためにテクスチャ信号を取り出すことができる。
本稿では,バングラ文学の権威属性における文字レベル信号の有効性について検討し,その結果が有望だが即効性を示す。
提案したモデルの時間とメモリ効率はワードレベルのモデルよりもはるかに高いが、精度は最高のワードレベルのモデルよりも2-5%低い。
様々な単語ベースモデルの比較を行い、提案モデルがより大きなデータセットでより良く動作することを示す。
また,著者属性における多様なBangla文字セットの事前学習文字埋め込みの効果も分析した。
事前トレーニングでは最大10%パフォーマンスが向上している。
6から14人の著者から2つのデータセットを使用して、トレーニング前にバランスをとり、結果を比較しました。
関連論文リスト
- Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Authorship Attribution in Bangla Literature (AABL) via Transfer Learning
using ULMFiT [0.6919386619690135]
著者属性(英: Authorship Attribution)とは、あるテキストの原作者を特定するために、テキストの適切な特徴づけを作成するタスクである。
英語、スペイン語、中国語など他の言語にも大きな進歩があったが、バングラはこの分野の包括的な研究を欠いている。
既存のシステムは、著者数が増えるとスケーラビリティが低下し、著者1人当たりのサンプル数が少なくなる。
論文 参考訳(メタデータ) (2024-03-08T18:42:59Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Whodunit? Learning to Contrast for Authorship Attribution [22.37948005237967]
著者の属性は、与えられたテキストの著者を特定するタスクである。
コントラスト学習と教師あり学習を組み合わせて,事前学習した言語表現を微調整する。
コントラXは、複数の人間と機械のオーサシップ属性のベンチマークで最先端の手法を推し進めていることを示す。
論文 参考訳(メタデータ) (2022-09-23T23:45:08Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Analyzing the Use of Character-Level Translation with Sparse and Noisy
Datasets [20.50917929755389]
キャラクタレベルのモデルでは、スパースやノイズの多いデータセットに適用すると、翻訳されていない単語の数が40%以上削減されることがわかった。
文字アライメント,フレーズテーブルフィルタリング,bitextサイズ,およびピボット言語の選択が翻訳品質に与える影響について検討する。
ワードノーキャラクタ-BLEUは、BLEUの長さに対する感度のため、人間の判断と完全に相関しない。
論文 参考訳(メタデータ) (2021-09-27T07:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。