論文の概要: BERT-based Authorship Attribution on the Romanian Dataset called ROST
- arxiv url: http://arxiv.org/abs/2301.12500v1
- Date: Sun, 29 Jan 2023 17:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 16:48:08.954714
- Title: BERT-based Authorship Attribution on the Romanian Dataset called ROST
- Title(参考訳): ROSTという,BERTに基づくルーマニアのデータセットのオーサリング属性
- Authors: Sanda-Maria Avram
- Abstract要約: 我々はルーマニア語で書かれたテキストの著者数を検出するためにモデルを使用する。
使用するデータセットはバランスが悪く、すなわち著者1人当たりのテキスト数に大きな違いがある。
結果は予想より優れており、マクロ精度は87%を超えることもある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Being around for decades, the problem of Authorship Attribution is still very
much in focus currently. Some of the more recent instruments used are the
pre-trained language models, the most prevalent being BERT. Here we used such a
model to detect the authorship of texts written in the Romanian language. The
dataset used is highly unbalanced, i.e., significant differences in the number
of texts per author, the sources from which the texts were collected, the time
period in which the authors lived and wrote these texts, the medium intended to
be read (i.e., paper or online), and the type of writing (i.e., stories, short
stories, fairy tales, novels, literary articles, and sketches). The results are
better than expected, sometimes exceeding 87\% macro-accuracy.
- Abstract(参考訳): 何十年もの間、著者の帰属という問題は今もなお非常に焦点を絞っている。
最近の楽器のいくつかは事前訓練された言語モデルであり、最も一般的なものはBERTである。
ここでは、ルーマニア語で書かれたテキストの著者検出にそのようなモデルを用いた。
使用するデータセットは、著者1人当たりのテキスト数、テキストが収集された資料、著者が居住し、執筆する期間、読みたいメディア(紙またはオンライン)、執筆のタイプ(物語、短編、妖精物語、小説、文学記事、スケッチなど)において大きな違いがある。
結果は予想より優れており、時には87\%のマクロ精度を超えることもある。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Reddit is all you need: Authorship profiling for Romanian [49.1574468325115]
著者プロファイリング(英: Authorship profiling)とは、著者の著作に基づいて著者の特徴を特定する過程である。
本稿では,ルーマニア語における短いテキストのコーパスについて紹介する。
論文 参考訳(メタデータ) (2024-10-13T16:27:31Z) - Ancient but Digitized: Developing Handwritten Optical Character Recognition for East Syriac Script Through Creating KHAMIS Dataset [1.174020933567308]
本稿では,手書きシリア語テキストに基づく光学文字認識(OCR)モデルの開発を目的とした研究プロジェクトについて報告する。
データセットKHAMISは、東シリア文字で手書きの文からなる。
データは、KHAMISを作成するために言語で読み書きできるボランティアから収集された。
手書きのOCRモデルは、トレーニングセットと評価セットの両方で1.097-1.610%と8.963-10.490%の文字誤り率を達成することができた。
論文 参考訳(メタデータ) (2024-08-24T17:17:46Z) - A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts [8.405938712823563]
本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。
このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。
このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
論文 参考訳(メタデータ) (2024-07-21T12:14:45Z) - HANSEN: Human and AI Spoken Text Benchmark for Authorship Analysis [14.467821652366574]
音声テキストの最大のベンチマークであるHANSEN(Human ANd ai Spoken tExt beNchmark)を紹介する。
HANSENは、新しいAI生成された音声テキストデータセットの作成とともに、書き起こしを伴う既存の音声データセットの厳密なキュレーションを含んでいる。
HANSENの実用性を評価・実証するため,人間工学データセット上でオーサシップ(AA)とオーサリティ検証(AV)を行い,最先端(SOTA)モデルを用いた人間対AI音声テキスト検出を行った。
論文 参考訳(メタデータ) (2023-10-25T16:23:17Z) - Text2Time: Transformer-based Article Time Period Prediction [0.11470070927586018]
本研究は,テキストの内容に基づいて,文章,特にニュース記事の出版時期を予測することの問題点を考察する。
私たちは、ニューヨーク・タイムズが60年以上にわたって発行した35万件以上のニュース記事のラベル付きデータセットを作成しました。
提案手法では,テキスト分類のタスク,特に時刻予測のために,事前訓練されたBERTモデルを用いている。
論文 参考訳(メタデータ) (2023-04-21T10:05:03Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Attend, Memorize and Generate: Towards Faithful Table-to-Text Generation
in Few Shots [58.404516361586325]
Few-shot table-to-text generation は、限られたデータを用いてテーブル内容を伝えるために、流動的で忠実な文を構成するタスクである。
本稿では,人間のテキスト生成プロセスに触発された新しい手法,覚醒と生成(AMG)を提案する。
論文 参考訳(メタデータ) (2022-03-01T20:37:20Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Forensic Authorship Analysis of Microblogging Texts Using N-Grams and
Stylometric Features [63.48764893706088]
この研究は、280文字に制限されたツイートメッセージの作者を特定することを目的としている。
弊社の実験では、40名のユーザによる、ユーザ毎120から200のつぶやきを自己キャプチャしたデータベースを使っています。
この小さなセットを使った結果は有望であり、異なる特徴は92%から98.5%の分類精度を提供する。
論文 参考訳(メタデータ) (2020-03-24T19:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。