Fugu-MT 論文翻訳(概要): BERT-based Authorship Attribution on the Romanian Dataset called ROST

論文の概要: BERT-based Authorship Attribution on the Romanian Dataset called ROST

arxiv url: http://arxiv.org/abs/2301.12500v1
Date: Sun, 29 Jan 2023 17:37:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 16:48:08.954714
Title: BERT-based Authorship Attribution on the Romanian Dataset called ROST
Title（参考訳）: ROSTという,BERTに基づくルーマニアのデータセットのオーサリング属性
Authors: Sanda-Maria Avram
Abstract要約: 我々はルーマニア語で書かれたテキストの著者数を検出するためにモデルを使用する。使用するデータセットはバランスが悪く、すなわち著者1人当たりのテキスト数に大きな違いがある。結果は予想より優れており、マクロ精度は87%を超えることもある。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Being around for decades, the problem of Authorship Attribution is still very much in focus currently. Some of the more recent instruments used are the pre-trained language models, the most prevalent being BERT. Here we used such a model to detect the authorship of texts written in the Romanian language. The dataset used is highly unbalanced, i.e., significant differences in the number of texts per author, the sources from which the texts were collected, the time period in which the authors lived and wrote these texts, the medium intended to be read (i.e., paper or online), and the type of writing (i.e., stories, short stories, fairy tales, novels, literary articles, and sketches). The results are better than expected, sometimes exceeding 87\% macro-accuracy.
Abstract（参考訳）: 何十年もの間、著者の帰属という問題は今もなお非常に焦点を絞っている。最近の楽器のいくつかは事前訓練された言語モデルであり、最も一般的なものはBERTである。ここでは、ルーマニア語で書かれたテキストの著者検出にそのようなモデルを用いた。使用するデータセットは、著者1人当たりのテキスト数、テキストが収集された資料、著者が居住し、執筆する期間、読みたいメディア(紙またはオンライン)、執筆のタイプ(物語、短編、妖精物語、小説、文学記事、スケッチなど)において大きな違いがある。結果は予想より優れており、時には87\%のマクロ精度を超えることもある。

関連論文リスト

Language Detection by Means of the Minkowski Norm: Identification Through Character Bigrams and Frequency Analysis [0.0]
本研究では,モノグラムとビッグラムの周波数ランキングを利用した言語決定性アルゴリズムの数学的実装について検討する。本手法は,150文字未満のテキストに対して80%以上の精度を達成し,長文に対して100%の精度を実現する。
論文参考訳（メタデータ） (2025-07-22T07:11:01Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。 IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文参考訳（メタデータ） (2024-10-29T04:14:23Z)
Reddit is all you need: Authorship profiling for Romanian [49.1574468325115]
著者プロファイリング(英: Authorship profiling)とは、著者の著作に基づいて著者の特徴を特定する過程である。本稿では,ルーマニア語における短いテキストのコーパスについて紹介する。
論文参考訳（メタデータ） (2024-10-13T16:27:31Z)
Ancient but Digitized: Developing Handwritten Optical Character Recognition for East Syriac Script Through Creating KHAMIS Dataset [1.174020933567308]
本稿では,手書きシリア語テキストに基づく光学文字認識(OCR)モデルの開発を目的とした研究プロジェクトについて報告する。データセットKHAMISは、東シリア文字で手書きの文からなる。データは、KHAMISを作成するために言語で読み書きできるボランティアから収集された。手書きのOCRモデルは、トレーニングセットと評価セットの両方で1.097-1.610%と8.963-10.490%の文字誤り率を達成することができた。
論文参考訳（メタデータ） (2024-08-24T17:17:46Z)
A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts [8.405938712823563]
本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
論文参考訳（メタデータ） (2024-07-21T12:14:45Z)
HANSEN: Human and AI Spoken Text Benchmark for Authorship Analysis [14.467821652366574]
音声テキストの最大のベンチマークであるHANSEN(Human ANd ai Spoken tExt beNchmark)を紹介する。 HANSENは、新しいAI生成された音声テキストデータセットの作成とともに、書き起こしを伴う既存の音声データセットの厳密なキュレーションを含んでいる。 HANSENの実用性を評価・実証するため,人間工学データセット上でオーサシップ(AA)とオーサリティ検証(AV)を行い,最先端(SOTA)モデルを用いた人間対AI音声テキスト検出を行った。
論文参考訳（メタデータ） (2023-10-25T16:23:17Z)
Text2Time: Transformer-based Article Time Period Prediction [0.11470070927586018]
本研究は,テキストの内容に基づいて,文章,特にニュース記事の出版時期を予測することの問題点を考察する。私たちは、ニューヨーク・タイムズが60年以上にわたって発行した35万件以上のニュース記事のラベル付きデータセットを作成しました。提案手法では,テキスト分類のタスク,特に時刻予測のために,事前訓練されたBERTモデルを用いている。
論文参考訳（メタデータ） (2023-04-21T10:05:03Z)
PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文参考訳（メタデータ） (2022-09-30T11:08:39Z)
Attend, Memorize and Generate: Towards Faithful Table-to-Text Generation in Few Shots [58.404516361586325]
Few-shot table-to-text generation は、限られたデータを用いてテーブル内容を伝えるために、流動的で忠実な文を構成するタスクである。本稿では,人間のテキスト生成プロセスに触発された新しい手法,覚醒と生成(AMG)を提案する。
論文参考訳（メタデータ） (2022-03-01T20:37:20Z)
How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか? 本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文参考訳（メタデータ） (2021-11-18T04:07:09Z)
Forensic Authorship Analysis of Microblogging Texts Using N-Grams and Stylometric Features [63.48764893706088]
この研究は、280文字に制限されたツイートメッセージの作者を特定することを目的としている。弊社の実験では、40名のユーザによる、ユーザ毎120から200のつぶやきを自己キャプチャしたデータベースを使っています。この小さなセットを使った結果は有望であり、異なる特徴は92%から98.5%の分類精度を提供する。
論文参考訳（メタデータ） (2020-03-24T19:32:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。