論文の概要: Phonetic and Visual Priors for Decipherment of Informal Romanization
- arxiv url: http://arxiv.org/abs/2005.02517v1
- Date: Tue, 5 May 2020 21:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 14:07:28.757393
- Title: Phonetic and Visual Priors for Decipherment of Informal Romanization
- Title(参考訳): Informal Romanization の音声認識における音声と視覚の優位性
- Authors: Maria Ryskina, Matthew R. Gormley, Taylor Berg-Kirkpatrick
- Abstract要約: 観測されたロマライズされたテキストからオリジナルの非ラテン文字を解読するためのノイズチャネルWFSTカスケードモデルを提案する。
私たちは、エジプトのアラビア語とロシア語という2つの言語のロマン化データに基づいて、モデルを直接訓練します。
文字マッピングにおける音声と視覚の先行性による帰納的バイアスを加えることで、両方の言語におけるモデルの性能が大幅に向上することが実証された。
- 参考スコア(独自算出の注目度): 37.77170643560608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Informal romanization is an idiosyncratic process used by humans in informal
digital communication to encode non-Latin script languages into Latin character
sets found on common keyboards. Character substitution choices differ between
users but have been shown to be governed by the same main principles observed
across a variety of languages---namely, character pairs are often associated
through phonetic or visual similarity. We propose a noisy-channel WFST cascade
model for deciphering the original non-Latin script from observed romanized
text in an unsupervised fashion. We train our model directly on romanized data
from two languages: Egyptian Arabic and Russian. We demonstrate that adding
inductive bias through phonetic and visual priors on character mappings
substantially improves the model's performance on both languages, yielding
results much closer to the supervised skyline. Finally, we introduce a new
dataset of romanized Russian, collected from a Russian social network website
and partially annotated for our experiments.
- Abstract(参考訳): 非公式なローマ字化(英: informal romanization)は、人間が非公式なデジタル通信で使う慣用的なプロセスで、非ラテン文字の言語をラテン語の文字集合にエンコードするために使われる。
文字置換の選択はユーザによって異なるが、様々な言語で観察されるのと同じ原則によって支配されていることが示されている。
非ラテン語文字を教師なしで観察されたロマライズされたテキストから解読するためのノイズチャネルWFSTカスケードモデルを提案する。
私たちは、エジプトのアラビア語とロシア語の2つの言語のロマン化データを直接トレーニングします。
文字マッピングにおける音素および視覚的優先による帰納バイアスを加えることで、両方の言語におけるモデルの性能が大幅に向上し、教師付きスカイラインにかなり近い結果が得られることを示す。
最後に、ロシアのソーシャルネットワークのウェブサイトから収集され、実験のために部分的に注釈付けされたロシア人の新しいデータセットを紹介します。
関連論文リスト
- Examining Language Modeling Assumptions Using an Annotated Literary Dialect Corpus [0.0]
19世紀のアメリカの文学的変種トークンのデータセットを,人間の注釈付き方言群タグの新たな層で提示する。
意図的な正書法変化によって生じる「方言効果」が複数の言語チャネルを取り入れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:58:21Z) - RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanization [17.46921734622369]
ロマンティックテキストはトークンの肥大度を2x-4x削減する。
ロマンティックテキストは、様々なNLU、NLG、MTタスクにまたがるネイティブスクリプト表現にマッチまたは優れる。
論文 参考訳(メタデータ) (2024-01-25T16:11:41Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - English-to-Chinese Transliteration with Phonetic Back-transliteration [0.9281671380673306]
音素の類似性に基づいて、名前付きエンティティを言語から別の言語に翻訳するタスクである。
本研究では,2つの方法で音声情報をニューラルネットワークに組み込む。
私たちの実験には3つの言語対と6つの方向、すなわち英語から中国語、ヘブライ語、タイ語までが含まれる。
論文 参考訳(メタデータ) (2021-12-20T03:29:28Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Deciphering Undersegmented Ancient Scripts Using Phonetic Prior [31.707254394215283]
ほとんどの未解読失語言語は、重要な解読課題を引き起こす2つの特徴を持っている。
豊かな言語制約を基礎として,これらの課題に対処するモデルを提案する。
我々は、解読された言語(ゴシック語、ウガル語)と未解読言語(イベリア語)の両方でモデルを評価する。
論文 参考訳(メタデータ) (2020-10-21T15:03:52Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Latin BERT: A Contextual Language Model for Classical Philology [7.513100214864645]
我々はラテン言語のための文脈言語モデルである Latin BERT を提示する。
古典期から21世紀にかけての様々な資料から642.7万語で訓練された。
論文 参考訳(メタデータ) (2020-09-21T17:47:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。