論文の概要: Oldies but Goldies: The Potential of Character N-grams for Romanian Texts
- arxiv url: http://arxiv.org/abs/2506.15650v1
- Date: Wed, 18 Jun 2025 17:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.760348
- Title: Oldies but Goldies: The Potential of Character N-grams for Romanian Texts
- Title(参考訳): Oldies but Goldies: ルーマニア語テキストの文字N-gramの可能性
- Authors: Dana Lupsa, Sanda-Maria Avram,
- Abstract要約: 我々は,軽量で解釈可能な文字n-gramアプローチが,ルーマニアの著作家帰属に最先端の精度をもたらすことを示す。
本研究は, 資源, 制約, アンダースタディド言語設定における簡易なテクスチャ的特徴の可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study addresses the problem of authorship attribution for Romanian texts using the ROST corpus, a standard benchmark in the field. We systematically evaluate six machine learning techniques: Support Vector Machine (SVM), Logistic Regression (LR), k-Nearest Neighbors (k-NN), Decision Trees (DT), Random Forests (RF), and Artificial Neural Networks (ANN), employing character n-gram features for classification. Among these, the ANN model achieved the highest performance, including perfect classification in four out of fifteen runs when using 5-gram features. These results demonstrate that lightweight, interpretable character n-gram approaches can deliver state-of-the-art accuracy for Romanian authorship attribution, rivaling more complex methods. Our findings highlight the potential of simple stylometric features in resource, constrained or under-studied language settings.
- Abstract(参考訳): 本研究では,この分野の標準ベンチマークであるROSTコーパスを用いて,ルーマニア語テキストの著者属性の問題に対処する。
SVM(Support Vector Machine)、LR(Logistic Regression)、k-Nearest Neighbors(k-NN)、DT(Decision Trees)、RF(Random Forests)、ANN(Artificial Neural Networks)の6つの機械学習手法を体系的に評価した。
このうち、ANNモデルは5グラム特徴を用いた場合の15ラン中4ランの完全分類を含む最高性能を達成した。
これらの結果は、軽量で解釈可能な文字n-gramアプローチが、より複雑な手法に匹敵するルーマニアの著作者帰属に最先端の精度をもたらすことを示している。
本研究は, 資源, 制約, アンダースタディド言語設定における簡易なテクスチャ的特徴の可能性を明らかにするものである。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference? [3.2528685897001455]
本報告では,参照を必要とせず,既存の教師なし手法を用いてテキストの流速を計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
モデルの性能を評価するため,10言語を対象に比較分析を行った。
論文 参考訳(メタデータ) (2023-12-03T20:09:23Z) - Learning Hierarchical Structures with Differentiable Nondeterministic
Stacks [25.064819128982556]
最近提案された非決定論的スタックRNN(NS-RNN)に基づくスタックRNNモデルを提案する。
NS-RNNは,5つの文脈自由言語モデリングタスクにおいて,従来のスタックRNNよりも低エントロピーを実現することを示す。
また,自然言語を用いた言語モデリングを実用化するNS-RNNの限定バージョンを提案する。
論文 参考訳(メタデータ) (2021-09-05T03:25:23Z) - Graph Neural Networks for Natural Language Processing: A Survey [64.36633422999905]
本稿では,自然言語処理のためのグラフニューラルネットワーク(GNN)について概観する。
我々は,グラフ構築,グラフ表現学習,グラフベースエンコーダ・デコーダモデルという3つの軸に沿って,NLP用GNNの既存の研究を組織する,NLP用GNNの新しい分類法を提案する。
論文 参考訳(メタデータ) (2021-06-10T23:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。