Fugu-MT 論文翻訳(概要): LexGen: Domain-aware Multilingual Lexicon Generation

論文の概要: LexGen: Domain-aware Multilingual Lexicon Generation

arxiv url: http://arxiv.org/abs/2405.11200v2
Date: Tue, 24 Sep 2024 06:31:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 02:30:11.211599
Title: LexGen: Domain-aware Multilingual Lexicon Generation
Title（参考訳）: LexGen:ドメイン対応多言語辞書生成
Authors: Ayush Maheshwari, Atul Kumar Singh, Karthika NJ, Krishnakant Bhatt, Preethi Jyothi, Ganesh Ramakrishnan,
Abstract要約: マルチドメイン設定で6つのインド語のための辞書語を生成する新しいモデルを提案する。私たちのモデルは、情報をエンコードするドメイン固有層とドメイン生成層で構成されています。 8つの異なるドメインにまたがる6つのインドの言語を対象とした新しいベンチマークデータセットをリリースしました。
参考スコア（独自算出の注目度）: 40.97738267067852
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Lexicon or dictionary generation across domains is of significant societal importance, as it can potentially enhance information accessibility for a diverse user base while preserving language identity. Prior work in the field primarily focuses on bilingual lexical induction, which deals with word alignments using mapping-based or corpora-based approaches. Though initiated by researchers, the research associated with lexicon generation is limited, even more so with domain-specific lexicons. This task becomes particularly important in atypical medical, engineering, and other technical domains, owing to the highly infrequent usage of the terms and negligibly low data availability of technical terms in many low-resource languages. Owing to the research gap in lexicon generation, especially with a limited focus on the domain-specific area, we propose a new model to generate dictionary words for 6 Indian languages in the multi-domain setting. Our model consists of domain-specific and domain-generic layers that encode information, and these layers are invoked via a learnable routing technique. Further, we propose an approach to explicitly leverage the relatedness between these Indian languages toward coherent translation. We also release a new benchmark dataset across 6 Indian languages that span 8 diverse domains that can propel further research in domain-specific lexicon induction. We conduct both zero-shot and few-shot experiments across multiple domains to show the efficacy of our proposed model in generalizing to unseen domains and unseen languages.
Abstract（参考訳）: ドメイン間の辞書や辞書生成は、言語アイデンティティを保ちながら、多様なユーザベースの情報アクセシビリティを高める可能性があるため、社会的に重要な意味を持つ。この分野における以前の研究は、主にバイリンガル語彙誘導(英語版)に焦点を当てており、これはマッピングベースのアプローチやコーパスベースのアプローチを用いて単語アライメントを扱う。研究者によって始められたが、レキシコン生成に関する研究は限定的であり、さらにドメイン固有のレキシコンも同様である。このタスクは、非典型的な医療、工学、その他の技術分野において特に重要となる。辞書生成における研究のギャップ、特にドメイン特化領域に限定して、マルチドメイン設定において6つのインド語のための辞書語を生成する新しいモデルを提案する。我々のモデルは、情報をエンコードするドメイン固有層とドメイン生成層から構成されており、これらの層は学習可能なルーティング技術を介して呼び出される。さらに,これらの言語間の関連性をコヒーレントな翻訳に明示的に活用する手法を提案する。また、ドメイン固有のレキシコン誘導のさらなる研究を促進することができる8つの異なるドメインにまたがる6つのインド言語にわたる新しいベンチマークデータセットもリリースしました。提案手法の有効性を示すため,複数の領域にまたがるゼロショット実験と少数ショット実験を行ない,未知の領域や未知の言語に一般化する。

関連論文リスト

Cross-Domain Bilingual Lexicon Induction via Pretrained Language Models [22.297388572921477]
本稿では、一般ドメインと対象ドメインの単言語コーパスを用いて、ドメイン固有のバイリンガル辞書を抽出するBLIの新しいタスクを提案する。事前学習モデルの能力に触発されて,BLIの最近の研究に基づいて構築された単語の埋め込みを改善する手法を提案する。実験結果から,本手法は3つの領域におけるロバストなBLIベースラインの性能を平均0.78ポイント向上させることで向上できることがわかった。
論文参考訳（メタデータ） (2025-05-29T06:37:02Z)
A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation [52.0964459842176]
現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。我々はtextbfAMD$2$G と呼ばれる textbfMulti-textbfDomain textbfDialogue textbfGeneration のための新しいデータ textbfAugmentation フレームワークを提案する。 AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。
論文参考訳（メタデータ） (2024-06-14T09:52:27Z)
Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文参考訳（メタデータ） (2024-04-09T11:39:53Z)
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文参考訳（メタデータ） (2023-05-30T03:00:30Z)
Can Domains Be Transferred Across Languages in Multi-Domain Multilingual Neural Machine Translation? [52.27798071809941]
本稿では,多言語NMTと多言語NMTの合成において,言語間でドメイン情報を転送できるかどうかを検討する。マルチドメイン多言語(MDML)NMTは,BLEUで0ショット変換性能を+10ゲインまで向上させることができる。
論文参考訳（メタデータ） (2022-10-20T23:13:54Z)
Using Linguistic Typology to Enrich Multilingual Lexicons: the Case of Lexical Gaps in Kinship [4.970603969125883]
語彙的ギャップと言語固有の単語という概念を通して多様性の現象を捉えている。我々は,198のドメイン概念,1,911のワード,37,370のギャップからなる語彙意味資源を公開している。
論文参考訳（メタデータ） (2022-04-11T12:36:26Z)
Cross-Domain Deep Code Search with Meta Learning [14.618183588410194]
ドメイン固有のコード検索のための新しいアプローチであるCroCSを提案する。 CroCSは、プログラム表現モデルを一般的なプログラミング言語の大規模なコーパス上で事前訓練するトランスファーラーニングフレームワークを採用している。
論文参考訳（メタデータ） (2022-01-01T09:00:48Z)
MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model [17.566140528671134]
一つの多言語ドメイン固有モデルが一般的な多言語モデルより優れていることを示す。本稿では,言語モデルがドメイン固有かつ多言語的になるような事前学習コーパスを構成するための様々な手法を提案する。
論文参考訳（メタデータ） (2021-09-14T11:50:26Z)
Learning Domain-Specialised Representations for Cross-Lingual Biomedical Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文参考訳（メタデータ） (2021-05-30T00:50:00Z)
Improving Low Compute Language Modeling with In-Domain Embedding Initialisation [47.08853566241831]
英語のターゲット設定では、ドメイン内データを用いた入力埋め込みの初期化と凍結により、言語モデルの性能が向上することを示す。このプロセスでは、入力と出力の埋め込みを結び付ける標準的な慣習は、ドメイン内のデータに基づいてトレーニングされた埋め込みを初期化する際の難易度を向上しないことを示す。
論文参考訳（メタデータ） (2020-09-29T15:48:58Z)
Domain Adaptation for Semantic Parsing [68.81787666086554]
本稿では,ドメイン適応のための新しいセマンティクスを提案する。このセマンティクスでは,ソースドメインと比較して,対象ドメインのアノテーション付きデータがはるかに少ない。我々のセマンティックな利点は、2段階の粗大なフレームワークから得ており、2段階の異なる正確な処理を提供できる。ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。
論文参考訳（メタデータ） (2020-06-23T14:47:41Z)
Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。このようなモデルに基づくドメインデータ選択手法を提案する。我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文参考訳（メタデータ） (2020-04-05T06:22:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。