論文の概要: Exploiting Transliterated Words for Finding Similarity in Inter-Language
News Articles using Machine Learning
- arxiv url: http://arxiv.org/abs/2206.11860v1
- Date: Sun, 29 May 2022 12:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 04:02:54.912360
- Title: Exploiting Transliterated Words for Finding Similarity in Inter-Language
News Articles using Machine Learning
- Title(参考訳): 機械学習を用いた言語間ニュース記事の類似性検索における翻訳単語の活用
- Authors: Sameea Naeem, Dr. Arif ur Rahman, Syed Mujtaba Haider, Abdul Basit
Mughal
- Abstract要約: 2つの言語間ニュース記事の類似性を見つけることは自然言語処理(NLP)の課題である。
本稿では,英語ニュース記事がウルドゥー語ニュース記事と類似しているか否かを示すために,英語のウルドゥー語翻訳を組み合わせた機械学習モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding similarities between two inter-language news articles is a
challenging problem of Natural Language Processing (NLP). It is difficult to
find similar news articles in a different language other than the native
language of user, there is a need for a Machine Learning based automatic system
to find the similarity between two inter-language news articles. In this
article, we propose a Machine Learning model with the combination of English
Urdu word transliteration which will show whether the English news article is
similar to the Urdu news article or not. The existing approaches to find
similarities has a major drawback when the archives contain articles of
low-resourced languages like Urdu along with English news article. The existing
approaches to find similarities has drawback when the archives contain
low-resourced languages like Urdu along with English news articles. We used
lexicon to link Urdu and English news articles. As Urdu language processing
applications like machine translation, text to speech, etc are unable to handle
English text at the same time so this research proposed technique to find
similarities in English and Urdu news articles based on transliteration.
- Abstract(参考訳): 2つの言語間ニュース記事の類似性を見つけることは自然言語処理(NLP)の課題である。
利用者の母国語以外の言語で類似したニュース記事を見つけることは困難であり、2つの言語間ニュース記事間の類似性を見つけるために機械学習に基づく自動システムが必要である。
本稿では、英語ニュース記事がウルドゥーニュース記事と類似しているか否かを示す英語ウルドゥー語訳文の組み合わせを用いた機械学習モデルを提案する。
既存の類似性を見つけるためのアプローチは、アーカイブがUrduのような低リソース言語の記事と英語のニュース記事を含む場合に大きな欠点がある。
既存の類似性を見つけるためのアプローチは、Urduのような低リソース言語と英語のニュース記事を含むアーカイブに欠点がある。
私たちはウルドゥー語と英語のニュース記事のリンクに辞書を使った。
機械翻訳やテキストから音声への変換といったウルドゥー語の処理アプリケーションでは英語のテキストを同時に処理できないため、本研究は英語とウルドゥー語のニュース記事の類似性を求める手法を提案した。
関連論文リスト
- Enhancing Language Learning through Technology: Introducing a New English-Azerbaijani (Arabic Script) Parallel Corpus [0.9051256541674136]
本稿では,英語・アゼルバイジャン語の並列コーパスについて紹介する。
これは、低リソース言語のための言語学習と機械翻訳の技術的ギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2024-07-06T21:23:20Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - Co-occurrences using Fasttext embeddings for word similarity tasks in
Urdu [0.0]
本稿では,Urduのコーパスを構築し,複数のソースからデータを抽出・統合する。
fasttext埋め込みとN-Gramsモデルを変更して、構築されたコーパスでトレーニングできるようにします。
これらのトレーニング済み埋め込みを単語の類似性タスクに使用し、その結果を既存の技術と比較しました。
論文 参考訳(メタデータ) (2021-02-22T12:56:26Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation [77.69102711230248]
我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりも、トランスフォーマーの結果を改善する効果的な方法であることを示唆している。
論文 参考訳(メタデータ) (2020-10-07T15:44:55Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Batch Clustering for Multilingual News Streaming [0.0]
多種多様で非組織的な情報が大量にあるため、読み書きは困難またはほぼ不可能である。
記事はバッチ毎に処理し、モノリンガルなローカルトピックを探し、時間と言語にまたがってリンクします。
我々のシステムは、スペイン語とドイツ語のニュースのデータセットにモノリンガルな結果を与え、英語、スペイン語、ドイツ語のニュースにクロスリンガルな結果を与える。
論文 参考訳(メタデータ) (2020-04-17T08:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。