論文の概要: WordAlchemy: A transformer-based Reverse Dictionary
- arxiv url: http://arxiv.org/abs/2204.10181v1
- Date: Sat, 16 Apr 2022 11:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-24 15:30:02.317358
- Title: WordAlchemy: A transformer-based Reverse Dictionary
- Title(参考訳): wordalchemy: トランスフォーマーベースの逆辞書
- Authors: Dr. Sunil B. Mane, Harshal Patil, Kanhaiya Madaswar and Pranav
Sadavarte
- Abstract要約: インド語をサポートするオープンソースのクロスランガル逆辞書システムを提案する。
このアーキテクチャは、従来の BERT の Masked Language Modeling (MLM) 技術ではなく、Translation Language Modeling (TLM) 技術を使用している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A reverse dictionary takes a target word's description as input and returns
the words that fit the description. Reverse Dictionaries are useful for new
language learners, anomia patients, and for solving common tip-of-the-tongue
problems (lethologica). Currently, there does not exist any Reverse Dictionary
provider with support for any Indian Language. We present a novel open-source
cross-lingual reverse dictionary system with support for Indian languages. In
this paper, we propose a transformer-based deep learning approach to tackle the
limitations faced by the existing systems using the mT5 model. This
architecture uses the Translation Language Modeling (TLM) technique, rather
than the conventional BERT's Masked Language Modeling (MLM) technique.
- Abstract(参考訳): 逆辞書は、対象語の記述を入力として取り、その記述に適した単語を返す。
逆辞書は、新しい言語学習者、アノミア患者、および共通語源問題(lethologica)を解決するのに有用である。
現在、インド語をサポートする逆辞書プロバイダは存在しない。
インド語をサポートするオープンソースのクロスランガル逆辞書システムを提案する。
本稿では,mt5モデルを用いた既存のシステムで直面する制約に取り組むために,トランスフォーマティブに基づくディープラーニング手法を提案する。
このアーキテクチャは、従来の BERT の Masked Language Modeling (MLM) 技術ではなく、Translation Language Modeling (TLM) 技術を使用している。
関連論文リスト
- On Translating Technical Terminology: A Translation Workflow for
Machine-Translated Acronyms [3.053989095162017]
技術的な用語、特に頭字語を翻訳する、重要なステップが見逃されていることが分かりました。
Google Translateのような最先端の機械翻訳システムは、頭字語を扱う際に誤用されることがある。
SL-TL (FR-EN) 翻訳ワークフローに追加のステップを提案し、まず、公共消費のための新しい頭字語コーパスを提供し、次に検索ベースのしきい値付けアルゴリズムを実験する。
論文 参考訳(メタデータ) (2024-09-26T15:18:34Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Learning Interpretable Queries for Explainable Image Classification with
Information Pursuit [18.089603786027503]
Information Pursuit (IP) は、データに関する解釈可能なクエリのシーケンスを欲求的に選択する説明可能な予測アルゴリズムである。
本稿では,データセットから直接解釈可能なクエリの辞書を学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-16T21:43:07Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - "A Passage to India": Pre-trained Word Embeddings for Indian Languages [30.607474624873014]
既存のアプローチを使って、14のインドの言語に複数の単語を埋め込みます。
これらすべての言語への組み込みを単一のリポジトリに配置します。
8つの異なるアプローチを使って、合計436のモデルをリリースします。
論文 参考訳(メタデータ) (2021-12-27T17:31:04Z) - Mixed Attention Transformer for LeveragingWord-Level Knowledge to Neural
Cross-Lingual Information Retrieval [15.902630454568811]
本稿では,辞書や翻訳表などの外部単語レベルの知識を取り入れた,MAT(Mixed Attention Transformer)を提案する。
翻訳知識をアテンションマトリックスに符号化することにより、MATを用いたモデルは、入力シーケンス内の相互翻訳された単語にフォーカスすることができる。
論文 参考訳(メタデータ) (2021-09-07T00:33:14Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Data Augmentation and Terminology Integration for Domain-Specific
Sinhala-English-Tamil Statistical Machine Translation [1.1470070927586016]
Out of vocabulary (OOV) は低リソース言語における機械翻訳(MT)の文脈における問題である。
本稿では、ケースマーカーに基づいてバイリンガル語彙を拡大するデータ拡張技術に焦点を当てる。
論文 参考訳(メタデータ) (2020-11-05T13:58:32Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - BERT for Monolingual and Cross-Lingual Reverse Dictionary [56.8627517256663]
本稿では,BERTが特定のタスクの目的語を生成するための,シンプルだが効果的な手法を提案する。
BERT (mBERT) を用いることで,1つの単語を埋め込んだ言語間逆辞書を効率的に行うことができる。
論文 参考訳(メタデータ) (2020-09-30T17:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。