論文の概要: Language Lexicons for Hindi-English Multilingual Text Processing
- arxiv url: http://arxiv.org/abs/2106.15105v1
- Date: Tue, 29 Jun 2021 05:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:30:49.719897
- Title: Language Lexicons for Hindi-English Multilingual Text Processing
- Title(参考訳): ヒンズー英語多言語テキスト処理のための言語語彙
- Authors: Mohd Zeeshan Ansari, Tanvir Ahmad and Noaima Bari
- Abstract要約: 現在の言語識別技術は、文書が固定された言語のセットの1つにテキストを含んでいることを前提としている。
ヒンディー語と英語の混合言語処理タスクのための大きな標準コーパスが利用できないため、言語辞書を提案する。
これらの語彙はヒンディー語と英語の語彙を翻訳して分類器を学習することによって作られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language Identification in textual documents is the process of automatically
detecting the language contained in a document based on its content. The
present Language Identification techniques presume that a document contains
text in one of the fixed set of languages, however, this presumption is
incorrect when dealing with multilingual document which includes content in
more than one possible language. Due to the unavailability of large standard
corpora for Hindi-English mixed lingual language processing tasks we propose
the language lexicons, a novel kind of lexical database that supports several
multilingual language processing tasks. These lexicons are built by learning
classifiers over transliterated Hindi and English vocabulary. The designed
lexicons possess richer quantitative characteristic than its primary source of
collection which is revealed using the visualization techniques.
- Abstract(参考訳): テキスト文書中の言語識別は、その内容に基づいて文書に含まれる言語を自動的に検出するプロセスである。
現在の言語識別技術は、ある文書が固定された言語の1つにテキストを含むことを前提としているが、複数の可能な言語を含む多言語文書を扱う場合、この推定は誤りである。
ヒンズー語と英語の混合言語処理タスクのための大きな標準コーパスが利用できないため、我々は複数の多言語言語処理タスクをサポートする新しい辞書データベースであるlanguage lexiconsを提案する。
これらの語彙はヒンディー語と英語の語彙を翻訳して分類器を学習することによって作られる。
設計されたレキシコンは、可視化技術を用いて明らかにされる主要な収集源よりもリッチな量的特徴を有する。
関連論文リスト
- Fine-Tuned Self-Supervised Speech Representations for Language
Diarization in Multilingual Code-Switched Speech [4.39549503760707]
大規模自己教師型アーキテクチャ(WavLM)から抽出した微調整音声表現を用いた連続多言語ダイアリザを開発した。
南アフリカ語5言語(isiZulu, isiXa, Seswana, Sesotho, English)からなるコード交換コーパスを実験した。
論文 参考訳(メタデータ) (2023-12-15T09:40:41Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Generalising Multilingual Concept-to-Text NLG with Language Agnostic
Delexicalisation [0.40611352512781856]
概念からテキストへの自然言語生成は、自然言語で入力の意味を表現するタスクである。
多言語事前学習型埋め込みを用いた新しいデレクサライズ手法であるLanguage Agnostic Delexicalizationを提案する。
5つのデータセットと5つの言語で実験した結果、多言語モデルは概念対テキストで単言語モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-05-07T17:48:53Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Discovering Bilingual Lexicons in Polyglot Word Embeddings [32.53342453685406]
本研究では,多言語単語の埋め込みを生成する多言語コーパスで訓練された1つのスキップグラムモデルを利用する。
本稿では, 比較的単純な近傍サンプリング手法により, バイリンガル辞書を検索できることを示す。
3つのヨーロッパ語対にまたがって、多言語単語の埋め込みは、確かに単語のリッチな意味表現を学習する。
論文 参考訳(メタデータ) (2020-08-31T03:57:50Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。