論文の概要: AcrosticSleuth: Probabilistic Identification and Ranking of Acrostics in Multilingual Corpora
- arxiv url: http://arxiv.org/abs/2408.04427v1
- Date: Thu, 8 Aug 2024 12:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 15:38:36.149107
- Title: AcrosticSleuth: Probabilistic Identification and Ranking of Acrostics in Multilingual Corpora
- Title(参考訳): アクロスティックス:多言語コーパスにおけるアクロスティックの確率的同定とランク付け
- Authors: Aleksandr Fedchin, Isabel Cooperman, Pramit Chaudhuri, Joseph P. Dexter,
- Abstract要約: アクロスティックスルース(AcrosticSleuth)は、アクロスティックを自動的に識別し、文字列が偶然に発生しない確率でランク付けするツールである。
クラス不均衡にもかかわらず、AcrosticSleuthはWikiSourceのフランス語、英語、ロシア語のF1スコア0.39、0.59、0.66を達成している。
- 参考スコア(独自算出の注目度): 42.90764683128392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For centuries, writers have hidden messages in their texts as acrostics, where initial letters of consecutive lines or paragraphs form meaningful words or phrases. Scholars searching for acrostics manually can only focus on a few authors at a time and often favor qualitative arguments in discussing intentionally. We aim to put the study of acrostics on firmer statistical footing by presenting AcrosticSleuth, a first-of-its-kind tool that automatically identifies acrostics and ranks them by the probability that the sequence of characters does not occur by chance (and therefore may have been inserted intentionally). Acrostics are rare, so we formalize the problem as a binary classification task in the presence of extreme class imbalance. To evaluate AcrosticSleuth, we present the Acrostic Identification Dataset (AcrostID), a collection of acrostics from the WikiSource online database. Despite the class imbalance, AcrosticSleuth achieves F1 scores of 0.39, 0.59, and 0.66 on French, English, and Russian subdomains of WikiSource, respectively. We further demonstrate that AcrosticSleuth can identify previously unknown high-profile instances of wordplay, such as the acrostic spelling ARSPOETICA (``art of poetry") by Italian Humanist Albertino Mussato and English philosopher Thomas Hobbes' signature in the opening paragraphs of The Elements of Law.
- Abstract(参考訳): 何世紀にもわたって、作家はアクロスティックとしてテキストにメッセージを隠しており、そこでは連続した行や段落の最初の文字が意味のある単語やフレーズを形成する。
アクロスティックを手動で探す研究者は、一度に少数の著者にのみ焦点を当てることができ、故意に議論する際には定性的な議論を好むことがしばしばある。
アクロスティックスルース(AcrosticSleuth)は、アクロスティックを自動的に識別し、文字列が偶然に起こらない確率でランク付けするツールである。
アクロスティックスは稀であるので、極端クラス不均衡の存在下では二項分類タスクとして問題を定式化する。
Acrostic Identification Dataset (AcrosticID, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset, Acrostic Identification Dataset)をWikiSourceのオンラインデータベースから収集した。
クラス不均衡にもかかわらず、AcrosticSleuthはWikiSourceのフランス語、英語、ロシア語のサブドメインでそれぞれ0.39、0.59、0.66のスコアを達成している。
さらに、AcrosticSleuthは、イタリアのヒューマニストAlbertino Mussatoとイギリスの哲学者Thomas Hobbesの『法の要素』の冒頭段落の署名による「ARSPOETICA」(「詩の芸術」)のような、これまで知られていなかった有名な語句の例を特定できることを示した。
関連論文リスト
- SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - Metronome: tracing variation in poetic meters via local sequence alignment [0.18749305679160366]
本稿では,局所配列アライメントを用いて詩の構造的類似性を検出する教師なし手法を提案する。
この方法は詩のテキストを4文字のアルファベットを使って韻律的な特徴の文字列として符号化することに依存している。
これらの列は、重み付きシンボル(ミス)マッチングに基づいて距離測度を導出するように整列される。
論文 参考訳(メタデータ) (2024-04-26T11:37:45Z) - Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Eyettention: An Attention-based Dual-Sequence Model for Predicting Human
Scanpaths during Reading [3.9766585251585282]
我々は、単語列と時間列の固定を同時に処理する最初の二重系列モデルであるEyettentionを開発する。
スキャンパスの予測において、Eyettentionは最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-21T07:26:49Z) - Stress Test for BERT and Deep Models: Predicting Words from Italian
Poetry [0.0]
本稿では,詩文領域から抽出した多数のイタリア語文について,BERTを用いて一連の実験を行った。
これらの実験は、言語学的複雑さの3つのレベルにおいて予測可能性の非常に高いレベルの難しさの仮説に基づいて構成される。
論文 参考訳(メタデータ) (2023-01-21T09:44:19Z) - Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship
Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。
2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文 参考訳(メタデータ) (2021-10-27T06:25:31Z) - Semantics of European poetry is shaped by conservative forces: The
relationship between poetic meter and meaning in accentual-syllabic verse [0.0]
我々は1819世紀のヨーロッパ文学において、詩のメーターと意味論の永続的な関連性を示す最初の大規模な公式な証拠を提供する。
本研究は,15万詩の抽象的意味的特徴を用いた一連のクラスタリング実験を通して,この関係を追究するものである。
論文 参考訳(メタデータ) (2021-09-15T08:20:01Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - Acrostic Poem Generation [26.604889384391726]
計算創造性分野における新たな課題として,英語のアクロスティック詩生成を提案する。
アクロスティック詩(Acrostic poem)は、隠されたメッセージを含む詩で、典型的には、各行の最初の文字が単語や短い句を綴り出す。
実験の結果,本研究の基準詩は人間に好意的に受け取られており,付加的な制約により品質が損なわれていないことが明らかとなった。
論文 参考訳(メタデータ) (2020-10-05T18:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。