論文の概要: A Bolu: A Structured Dataset for the Computational Analysis of Sardinian Improvisational Poetry
- arxiv url: http://arxiv.org/abs/2604.19584v1
- Date: Tue, 21 Apr 2026 15:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.848191
- Title: A Bolu: A Structured Dataset for the Computational Analysis of Sardinian Improvisational Poetry
- Title(参考訳): A Bolu:サルデーニャ改良詩の計算解析のための構造化データセット
- Authors: Silvio Calderaro, Johanna Monti,
- Abstract要約: ア・ブル(A Bolu)は、サルデーニャ語に捧げられた最初の現代詩のコーパスである。
データセットは、合計141,321個のトークンに対して2,835個のスタンザで構成されている。
結果は、サルデーニャの異端詩人の創作は、繰り返しパターンによって特徴づけられることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The growing interest of Natural Language Processing (NLP) in minority languages has not yet bridged the gap in the preservation of oral linguistic heritage. In particular, extemporaneous poetry - a performative genre based on real-time improvisation, metrical-rhetorical competence - remains a largely unexplored area of computational linguistics. This methodological gap necessitates the creation of specific resources to document and analyse the structures of improvised poetry. This is the context in which A Bolu was created, the first structured corpus of extemporaneous poetry dedicated to cantada logudorese, a variant of the Sardinian language. The dataset comprises 2,835 stanzas for a total of 141,321 tokens. The study presents the architecture of the corpus and applies a multidimensional analysis combining descriptive statistical indices and computational linguistics techniques to map the characteristics of the poetic text. The results indicate that the production of Sardinian extemporaneous poets is characterised by recurring patterns that support Parry and Lord's theory of formulaicity. This evidence not only provides a new key to understanding oral creativity, but also offers a significant contribution to the development of NLP tools that are more inclusive and sensitive to the specificities of less widely spoken languages.
- Abstract(参考訳): 少数言語における自然言語処理(NLP)の関心の高まりは、まだ口頭言語遺産の保存のギャップを埋めていない。
特に、即興的な詩(リアルタイム即興、計量修辞的能力に基づく演奏的ジャンル)は、計算言語学のほとんど未発見領域である。
この方法論的ギャップは、即興詩の構造を文書化し分析するための特定の資源の作成を必要とする。
これは、サルデーニャ語の変種であるcantada logudorese(英語版)に捧げられた、最初の同時詩のコーパスであるA Boluが作られた文脈である。
データセットは、合計141,321個のトークンに対して2,835個のスタンザで構成されている。
本研究は, コーパスのアーキテクチャを示し, 記述的統計指標と計算言語学技術を組み合わせた多次元解析を用いて, 詩文の特徴をマッピングする。
この結果から、サルデーニャの異端詩人の創作は、パリーとロードの定式化論を支持するパターンによって特徴づけられていることが示唆された。
この証拠は、口頭での創造性を理解するための新しい鍵を提供するだけでなく、より包括的で、より広く話されていない言語の特異性に敏感なNLPツールの開発にも重要な貢献をしている。
関連論文リスト
- Floating or Suggesting Ideas? A Large-Scale Contrastive Analysis of Metaphorical and Literal Verb-Object Constructions [53.690096725532726]
本研究では,2Mコーパス文中の297の英語動詞オブジェクト対(例:float idea vs. suggest idea)を分析した。
5つのNLPツールを用いて,感情的,語彙的,統語的,言論的な特徴を捉えた認知的・言語的特徴2,293点を抽出した。
クロスペアの結果は, 語彙頻度, 凝集度, 構造規則性が高く, 比喩的文脈は感情負荷, イメージ性, 語彙多様性, 構造的特異性を示す。
論文 参考訳(メタデータ) (2026-04-09T14:08:57Z) - Hybrid topic modelling for computational close reading: Mapping narrative themes in Pushkin's Evgenij Onegin [0.0]
本研究では,計算文学解析のためのハイブリッドトピックモデリングフレームワークを提案する。
LDA(Latent Dirichlet Allocation)とSPLS-DA(Partial Least Squares Discriminant Analysis)を統合し、物語詩における主題構造と縦長のダイナミクスをモデル化する。
論文 参考訳(メタデータ) (2026-03-20T13:37:08Z) - SentiMaithili: A Benchmark Dataset for Sentiment and Reason Generation for the Low-Resource Maithili Language [0.9743193980153243]
マイティリ語(英語: Maithili)は、インド・アーリア語族に属する言語で、インドのプルバンチャル地方で1300万人以上の人々が話している。
この研究は、Maithiliで説明可能な感情計算のための最初のベンチマークを確立する。
論文 参考訳(メタデータ) (2025-10-25T04:58:18Z) - ANUBHUTI: A Comprehensive Corpus For Sentiment Analysis In Bangla Regional Languages [0.5062312533373298]
ANUBHUTIは、低資源バングラ方言における感情分析のためのリソースの重大なギャップを埋める。
このデータセットは、バングラデシュの現代社会の政治的景観を反映して、政治的および宗教的な内容が特徴的である。
データセットは、欠落したデータ、異常、不整合の体系的なチェックによってさらに改善された。
論文 参考訳(メタデータ) (2025-06-26T18:13:54Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Metrical Tagging in the Wild: Building and Annotating Poetry Corpora
with Rhythmic Features [0.0]
英語とドイツ語に大規模な詩コーパスを提供し,コーパス駆動ニューラルモデルを訓練するためのコーパスを小型化した韻律的特徴をアノテートする。
音節埋め込みを用いた BiLSTM-CRF モデルは, CRF ベースラインと異なるBERT ベースアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-17T16:38:57Z) - Quasi Error-free Text Classification and Authorship Recognition in a
large Corpus of English Literature based on a Novel Feature Set [0.0]
GLECの準誤りのないテキスト分類とオーサシップ認識は,同一の5つのスタイルと5つのコンテンツ特徴を用いた手法で可能であることを示す。
我々のデータは、心理学を読むための文学や実験の、多くの未来の計算および実証的研究の道を開く。
論文 参考訳(メタデータ) (2020-10-21T07:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。