論文の概要: Can Evolutionary Computation Help us to Crib the Voynich Manuscript ?
- arxiv url: http://arxiv.org/abs/2107.05381v1
- Date: Wed, 7 Jul 2021 23:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-18 12:32:14.402359
- Title: Can Evolutionary Computation Help us to Crib the Voynich Manuscript ?
- Title(参考訳): 進化的計算はヴォイニッヒ写本の解読に役立つか?
- Authors: Daniel Devatman Hromada
- Abstract要約: 本稿では,ボニチアングリフと音韻値の最適マッピングを求める進化的アルゴリズムを提案する。
復号アルゴリズムのコアコンポーネントは、最も最適な置換規則を見つけることを目的とした適合関数のバークのプロセスである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Departing from the postulate that Voynich Manuscript is not a hoax but rather
encodes authentic contents, our article presents an evolutionary algorithm
which aims to find the most optimal mapping between voynichian glyphs and
candidate phonemic values. Core component of the decoding algorithm is a
process of maximization of a fitness function which aims to find most optimal
set of substitution rules allowing to transcribe the part of the manuscript --
which we call the Calendar -- into lists of feminine names. This leads to sets
of character subsitution rules which allow us to consistently transcribe dozens
among three hundred calendar tokens into feminine names: a result far
surpassing both ``popular'' as well as "state of the art" tentatives to crack
the manuscript. What's more, by using name lists stemming from different
languages as potential cribs, our ``adaptive'' method can also be useful in
identification of the language in which the manuscript is written.
As far as we can currently tell, results of our experiments indicate that the
Calendar part of the manuscript contains names from baltoslavic, balkanic or
hebrew language strata. Two further indications are also given: primo, highest
fitness values were obtained when the crib list contains names with specific
infixes at token's penultimate position as is the case, for example, for slavic
\textbf{feminine diminutives} (i.e. names ending with -ka and not -a). In the
most successful scenario, 240 characters contained in 35 distinct Voynichese
tokens were successfully transcribed. Secundo, in case of crib stemming from
Hebrew language, whole adaptation process converges to significantly better
fitness values when transcribing voynichian tokens whose order of individual
characters have been reversed, and when lists feminine and not masculine names
are used as the crib.
- Abstract(参考訳): 本稿では,Voynich Manuscript は偽造ではなく,むしろ真正な内容の符号化である,という仮定とは別に,Voynichian glyph と候補音韻値の最適マッピングを求める進化的アルゴリズムを提案する。
デコードアルゴリズムの中核となるコンポーネントは、適合関数の最大化プロセスであり、最も最適な置換ルールのセットを見つけることを目的としており、原稿(私たちがカレンダと呼ぶ)の一部を女性名のリストに書き起こすことができる。
これにより、300枚のカレンダートークンのうち数十個を女性名に一貫して書き起こせる文字置換規則が設定され、その結果は「大衆」と「芸術の状況」の両方をはるかに超え、写本を解読する仮の手段となった。
さらに、異なる言語から派生した名前リストを潜在的なベビーベッドとして使うことで、我々の `adaptive'' メソッドは、原稿が書かれた言語の識別にも役立ちます。
現在わかる限りでは、我々の実験の結果、写本の暦部はバルトスラヴ語、バルカン語、ヘブライ語のストラタに由来する名前を含んでいることを示している。
プリモ (primo, highest fitness value) は、cribリストがトークンのペナルティメイト位置にある特定のイフィックスを含む場合、例えば、slavic \textbf{feminine diminutives} (すなわち、slavic) のように取得される。
--ka-not-aで終わる名前。
最も成功したシナリオでは、35個のvoynicheseトークンに含まれる240文字が書き起こされた。
secundoは、ヘブライ語から派生したcribの場合、個々の文字の順番が逆転したヴォイニチアントークンを転写する際に、適応プロセス全体がかなり良い適合値に収束し、男性名ではなく女性名のリストをcribとして使用する。
関連論文リスト
- Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - Towards Lexical Gender Inference: A Scalable Methodology using Online
Databases [3.0839245814393723]
大規模言語データセットにおいて,語彙性のある単語を自動的に検出する手法を提案する。
本手法は,Wikipediaのサンプルからランダムに検索した名詞の語彙性を決定する際に80%以上の精度に達する。
論文 参考訳(メタデータ) (2022-06-28T14:57:26Z) - Stylistic Fingerprints, POS-tags and Inflected Languages: A Case Study
in Polish [0.0]
屈折言語は単語形式を疎外し、ほとんどの統計的手続きを複雑にする。
本稿では,文体プロファイルの認識における文法的特徴(POS-tag n-gramsによる評価)と補題形式の有用性について検討する。
論文 参考訳(メタデータ) (2022-06-05T15:48:16Z) - LEXpander: applying colexification networks to automated lexicon
expansion [0.16804697591495946]
LEXpander は,新しいコネクティフィケーションデータを活用する辞書拡張手法である。
LEXpanderは,単語リストの精度とリコールのトレードオフの両面から,既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-31T14:55:29Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - edATLAS: An Efficient Disambiguation Algorithm for Texting in Languages
with Abugida Scripts [0.0]
アブティダ(abugida)は、各音節を単一の子音またはタイポグラフィーのリガチュアで表現する音素表記システムである。
本稿では, あいまいな表現アルゴリズムを提案し, バグダ記述システムを用いた2つの新しい入力方式でその有用性を示す。
ヒンディー語、ベンガル語、タイ語での入力速度は19.49%、25.13%、14.89%向上した。
論文 参考訳(メタデータ) (2021-01-05T03:16:34Z) - Character Entropy in Modern and Historical Texts: Comparison Metrics for
an Undeciphered Manuscript [0.4061135251278187]
本稿では,Voynich写本の多言語比較と解析のための3つのコーパスの作成について概説する。
ヴォイニッチのテキストのコーパスは、カリアー語、頭文字、転写システム、ウィキペディアから編纂された294の言語サンプルのコーパス、8つの言語で書かれた18の歴史的テキストのコーパスである。
論文 参考訳(メタデータ) (2020-10-28T01:53:59Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。