論文の概要: Stylistic Fingerprints, POS-tags and Inflected Languages: A Case Study
in Polish
- arxiv url: http://arxiv.org/abs/2206.02208v1
- Date: Sun, 5 Jun 2022 15:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:31:11.217818
- Title: Stylistic Fingerprints, POS-tags and Inflected Languages: A Case Study
in Polish
- Title(参考訳): 静的フィンガープリント,POSタグおよび屈折言語:ポーランド語を事例として
- Authors: Maciej Eder and Rafa{\l}. L. G\'orski
- Abstract要約: 屈折言語は単語形式を疎外し、ほとんどの統計的手続きを複雑にする。
本稿では,文体プロファイルの認識における文法的特徴(POS-tag n-gramsによる評価)と補題形式の有用性について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In stylometric investigations, frequencies of the most frequent words (MFWs)
and character n-grams outperform other style-markers, even if their performance
varies significantly across languages. In inflected languages, word endings
play a prominent role, and hence different word forms cannot be recognized
using generic text tokenization. Countless inflected word forms make
frequencies sparse, making most statistical procedures complicated. Presumably,
applying one of the NLP techniques, such as lemmatization and/or parsing, might
increase the performance of classification. The aim of this paper is to examine
the usefulness of grammatical features (as assessed via POS-tag n-grams) and
lemmatized forms in recognizing authorial profiles, in order to address the
underlying issue of the degree of freedom of choice within lexis and grammar.
Using a corpus of Polish novels, we performed a series of supervised authorship
attribution benchmarks, in order to compare the classification accuracy for
different types of lexical and syntactic style-markers. Even if the performance
of POS-tags as well as lemmatized forms was notoriously worse than that of
lexical markers, the difference was not substantial and never exceeded ca. 15%.
- Abstract(参考訳): テクスチャ的調査では、最も頻繁な単語(MFW)と文字n-gramの頻度は他のスタイルマーカーよりも優れており、その性能は言語によって大きく異なる。
屈折言語では語尾が顕著な役割を果たすため、汎用的なテキストトークン化では異なる語形が認識できない。
無数の単語形式は周波数をスパースにし、ほとんどの統計的手続きを複雑にする。
おそらく、補題化や構文解析などのNLP技術の適用により、分類性能が向上する可能性がある。
本研究の目的は,レキシスと文法における選択の自由度という根本的な問題に対処するため,著者プロファイル認識における文法的特徴(POSタグn-gramで評価される)と補題形式の有用性を検討することである。
ポーランドの小説のコーパスを用いて,様々な種類の語彙および構文的スタイルマーカーの分類精度を比較するために,教師付き著者帰属ベンチマークを行った。
posタグや補間フォームのパフォーマンスが語彙マーカーよりも悪名高いとしても、違いはそれほど大きくなく、caを超えることはなかった。
15%.
関連論文リスト
- DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - How word semantics and phonology affect handwriting of Alzheimer's
patients: a machine learning based analysis [20.36565712578267]
本研究は,アルツハイマー病患者の手書き書字に意味論と音韻論がどのような影響を及ぼすかを検討した。
我々は、6つの手書き作業から得られたデータを用いて、それぞれが以下のカテゴリの1つに属する単語をコピーする必要がある。
実験の結果,特徴選択により,単語の種類ごとに異なる特徴セットを導出できることがわかった。
論文 参考訳(メタデータ) (2023-07-06T13:35:06Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Deep Subjecthood: Higher-Order Grammatical Features in Multilingual BERT [7.057643880514415]
MBERT(Multilingual BERT)が文法をエンコードするには,複数言語の埋め込み空間にまたがるモルフォシンタクティックアライメントの高次文法的特徴がどのように現れるかを検討する。
論文 参考訳(メタデータ) (2021-01-26T19:21:59Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? [22.93722845643562]
Stackのジョイントフレームワークを使用する場合,POSタグ付けによって解析性能が大幅に向上することを示す。
解析木よりもPOSタグをアノテートする方がずっと安いことを考えると,大規模な異種POSタグデータの利用も検討する。
論文 参考訳(メタデータ) (2020-03-06T13:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。