論文の概要: Extending the Vocabulary of Fictional Languages using Neural Networks
- arxiv url: http://arxiv.org/abs/2201.07288v1
- Date: Tue, 18 Jan 2022 19:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 13:58:29.433979
- Title: Extending the Vocabulary of Fictional Languages using Neural Networks
- Title(参考訳): ニューラルネットワークを用いた架空の言語の語彙拡張
- Authors: Thomas Zacharias, Ashutosh Taklikar, Raja Giryes
- Abstract要約: 近年、小説、映画、テレビ番組、コミック、ビデオゲームでフィクションが人気を博している。
我々は、その創作者のスタイルを維持しながら、与えられた架空の言語に対する新しい単語を生成し、それによってこの言語語彙を拡張します。
- 参考スコア(独自算出の注目度): 34.99109749722662
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fictional languages have become increasingly popular over the recent years
appearing in novels, movies, TV shows, comics, and video games. While some of
these fictional languages have a complete vocabulary, most do not. We propose a
deep learning solution to the problem. Using style transfer and machine
translation tools, we generate new words for a given target fictional language,
while maintaining the style of its creator, hence extending this language
vocabulary.
- Abstract(参考訳): 近年、小説、映画、テレビ番組、漫画、ビデオゲームなどで架空の言語が人気を博している。
これらの架空の言語のいくつかは完全な語彙を持っているが、多くはそうではない。
我々はこの問題に対する深層学習ソリューションを提案する。
スタイルトランスファーと機械翻訳ツールを用いて、対象とする架空の言語に対して新たな単語を生成し、作成者のスタイルを維持しながら、この言語語彙を拡張する。
関連論文リスト
- XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked
Language Models [100.29953199404905]
語彙重複の少ない言語間でのトークン共有を非強調化することにより,多言語語彙に拡張する新たなアプローチを提案する。
我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。
XLM-V は低リソースの言語タスクに特に有効であり、マサハナーとアメリカの NLI では XLM-R を 11.2% と 5.8% で上回っている。
論文 参考訳(メタデータ) (2023-01-25T09:15:17Z) - Informative Language Representation Learning for Massively Multilingual
Neural Machine Translation [47.19129812325682]
多言語ニューラルマシン翻訳モデルでは、通常、人工言語トークンを使用して、所望のターゲット言語への翻訳をガイドする。
近年の研究では、先行する言語トークンは、多言語ニューラルマシン翻訳モデルから正しい翻訳方向へのナビゲートに失敗することがある。
本稿では,言語埋め込み型エンボディメントと言語認識型マルチヘッドアテンションという2つの手法を提案する。
論文 参考訳(メタデータ) (2022-09-04T04:27:17Z) - Creating Lexical Resources for Endangered Languages [2.363388546004777]
我々のアルゴリズムは公開ワードネットと機械翻訳装置(MT)を用いてバイリンガル辞書と多言語シソーラスを構築する。
我々の研究は、絶滅危惧言語と「中間ヘルパー」言語の間のバイリンガル辞書にのみ依存しているため、既存のリソースが不足している言語に適用できる。
論文 参考訳(メタデータ) (2022-08-08T02:31:28Z) - Allocating Large Vocabulary Capacity for Cross-lingual Language Model
Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。
本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。
この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文 参考訳(メタデータ) (2021-09-15T14:04:16Z) - Subword Mapping and Anchoring across Languages [1.9352552677009318]
SMALA (Subword Mapping and Anchoring across Languages) は、バイリンガルなサブワード語彙を構築する方法である。
SMALAは教師なしの最先端マッピング技術を用いてサブワードアライメントを抽出する。
SMALAで獲得した単語語彙は,多くの偽陽性と偽陰性を含む文のBLEUスコアが高くなることを示す。
論文 参考訳(メタデータ) (2021-09-09T20:46:27Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z) - Unsupervised Separation of Native and Loanwords for Malayalam and Telugu [3.4925763160992402]
ある言語からの単語は翻訳なしで別の言語で採用され、後者の言語で書かれたテキストで文字化された形で現れる。
この現象は、多くの単語が英語から借用されているインドの言語で特に広まっている。
本稿では,アグリニティブ・ドラヴィダ語からの単語の大規模なデータセットから,借用語を自動的かつ教師なしの方法で識別するタスクに対処する。
論文 参考訳(メタデータ) (2020-02-12T04:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。