論文の概要: Character Entropy in Modern and Historical Texts: Comparison Metrics for
an Undeciphered Manuscript
- arxiv url: http://arxiv.org/abs/2010.14697v2
- Date: Tue, 18 May 2021 23:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 05:22:06.490263
- Title: Character Entropy in Modern and Historical Texts: Comparison Metrics for
an Undeciphered Manuscript
- Title(参考訳): 現代・歴史的テキストにおける文字エントロピー:未解読写本の比較尺度
- Authors: Luke Lindemann and Claire Bowern
- Abstract要約: 本稿では,Voynich写本の多言語比較と解析のための3つのコーパスの作成について概説する。
ヴォイニッチのテキストのコーパスは、カリアー語、頭文字、転写システム、ウィキペディアから編纂された294の言語サンプルのコーパス、8つの言語で書かれた18の歴史的テキストのコーパスである。
- 参考スコア(独自算出の注目度): 0.4061135251278187
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper outlines the creation of three corpora for multilingual comparison
and analysis of the Voynich manuscript: a corpus of Voynich texts partitioned
by Currier language, scribal hand, and transcription system, a corpus of 294
language samples compiled from Wikipedia, and a corpus of eighteen transcribed
historical texts in eight languages. These corpora will be utilized in
subsequent work by the Voynich Working Group at Yale University.
We demonstrate the utility of these corpora for studying characteristics of
the Voynich script and language, with an analysis of conditional character
entropy in Voynichese. We discuss the interaction between character entropy and
language, script size and type, glyph compositionality, scribal conventions and
abbreviations, positional character variants, and bigram frequency.
This analysis characterizes the interaction between script compositionality,
character size, and predictability. We show that substantial manipulations of
glyph composition are not sufficient to align conditional entropy levels with
natural languages. The unusually predictable nature of the Voynichese script is
not attributable to a particular script or transcription system, underlying
language, or substitution cipher. Voynichese is distinct from every comparison
text in our corpora because character placement is highly constrained within
the word, and this may indicate the loss of phonemic distinctions from the
underlying language.
- Abstract(参考訳): 本稿では,voynich写本を多言語で比較分析するためのコーパスとして,カーリアー言語,スクリバル手,転写システムで区切られたvoynichテキストのコーパス,wikipediaから収集された294言語サンプルのコーパス,8言語で書き起こされた18の歴史的テキストのコーパスの3つのコーパスについて概説する。
これらのコーパスは、イェール大学のVoynich Working Groupによるその後の研究で活用される。
本稿では,Voynicheseにおける条件付き文字エントロピーの分析により,Voynich文字と言語の特徴を研究するためのコーパスの有用性を実証する。
文字エントロピーと言語,スクリプトサイズとタイプ,グリフの構成性,スクリバル規則と略語,位置的文字変種,ビッグラム周波数の相互作用について論じる。
この分析は、スクリプト構成性、文字サイズ、予測可能性の間の相互作用を特徴付ける。
条件付きエントロピーレベルを自然言語に合わせるには,グリフ合成の実質的な操作が不十分であることを示す。
ヴォイニチェ文字の異常に予測可能な性質は、特定のスクリプトや転写システム、基礎言語、置換暗号に起因するものではない。
Voynicheseはコーパスのすべての比較テキストと異なるのは、文字の配置が単語内で非常に制約されているためであり、これは下層の言語から音韻的区別が失われていることを示している。
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。
コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。
この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - SenteCon: Leveraging Lexicons to Learn Human-Interpretable Language
Representations [51.08119762844217]
SenteConは、深層言語表現に人間の解釈可能性を導入する方法である。
SenteConは、下流タスクにおける予測性能にほとんど、あるいは全くコストをかからない高レベルな解釈性を提供する。
論文 参考訳(メタデータ) (2023-05-24T05:06:28Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Example-Based Machine Translation from Text to a Hierarchical
Representation of Sign Language [1.3999481573773074]
本稿では,テキスト・トゥ・サイン翻訳の原本について述べる。
これは、AZeeにおける手話ビデオのテキストと階層的な形式記述の間のアライメントのドメイン固有の並列コーパスを使用して、データの不足を補う。
提案アルゴリズムは、ソーステキストに存在する類似性の検出に基づいて、整列セグメントのマッチングと置換を利用して、複数の候補翻訳を構築する。
結果として得られる翻訳は、アバターシステムへの入力として使用されるように設計されたAZee式(英語版)の形式である。
論文 参考訳(メタデータ) (2022-05-06T15:48:43Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - A frame semantics based approach to comparative study of digitized
corpus [0.0]
本論文は, デジタル化小説から作成された英語・アラビア語対応コーパスの形態的, 構文的, 意味的アノテーションプロセスに焦点を当てたものである。
本研究では,言語間での運動事象の概念化の違いを,フレーム構造とフレーム間関係で記述することができることを論じる。
論文 参考訳(メタデータ) (2020-05-29T22:56:25Z) - Validation and Normalization of DCS corpus using Sanskrit Heritage tools
to build a tagged Gold Corpus [0.0]
デジタル・コーパス・オブ・サンスクリット(Digital Corpus of Sanskrit)は、その形態的および語彙的タグ付けとともに約65万の文を記録している。
サンスクリット・ヘリテージ・エンジン(英語版)の読者は、形態学的および語彙的分析を伴うあらゆる可能な区分を生産している。
論文 参考訳(メタデータ) (2020-05-13T19:23:43Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。