論文の概要: LexGen: Domain-aware Multilingual Lexicon Generation
- arxiv url: http://arxiv.org/abs/2405.11200v3
- Date: Mon, 02 Jun 2025 11:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.822241
- Title: LexGen: Domain-aware Multilingual Lexicon Generation
- Title(参考訳): LexGen:ドメイン対応多言語辞書生成
- Authors: Ayush Maheshwari, Atul Kumar Singh, Karthika NJ, Krishnakant Bhatt, Preethi Jyothi, Ganesh Ramakrishnan,
- Abstract要約: マルチドメイン・セッティングにおいて6ドル・インドの言語のための辞書語を生成する新しいモデルを提案する。
我々のモデルは、情報をエンコードするドメイン固有層とドメイン生成層から構成されており、これらの層は学習可能なルーティング技術を介して呼び出される。
8つの異なるドメインにまたがる6つのインド言語にまたがる75Kの翻訳ペアからなる新しいベンチマークデータセットをリリースする。
- 参考スコア(独自算出の注目度): 40.97738267067852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lexicon or dictionary generation across domains has the potential for societal impact, as it can potentially enhance information accessibility for a diverse user base while preserving language identity. Prior work in the field primarily focuses on bilingual lexical induction, which deals with word alignments using mapping or corpora-based approaches. However, these approaches do not cater to domain-specific lexicon generation that consists of domain-specific terminology. This task becomes particularly important in specialized medical, engineering, and other technical domains, owing to the highly infrequent usage of the terms and scarcity of data involving domain-specific terms especially for low/mid-resource languages. In this paper, we propose a new model to generate dictionary words for $6$ Indian languages in the multi-domain setting. Our model consists of domain-specific and domain-generic layers that encode information, and these layers are invoked via a learnable routing technique. We also release a new benchmark dataset consisting of >75K translation pairs across 6 Indian languages spanning 8 diverse domains.We conduct both zero-shot and few-shot experiments across multiple domains to show the efficacy of our proposed model in generalizing to unseen domains and unseen languages. Additionally, we also perform a post-hoc human evaluation on unseen languages. The source code and dataset is present at https://github.com/Atulkmrsingh/lexgen.
- Abstract(参考訳): ドメイン間の辞書や辞書生成は、言語アイデンティティを保ちながら、多様なユーザベースの情報アクセシビリティを高める可能性があるため、社会的影響の可能性を秘めている。
この分野における先行研究は、主にバイリンガル語彙誘導(英語版)に焦点を当て、マッピングやコーパスに基づくアプローチを用いて単語アライメントを扱う。
しかし、これらのアプローチはドメイン固有の用語からなるドメイン固有の辞書生成には適用されない。
このタスクは専門の医療、工学、その他の技術分野において特に重要となり、特に低・中級の言語において、ドメイン固有の用語を含むデータの用語や不足が頻繁に使われるためである。
本稿では,複数ドメイン設定で6ドル(約6,300円)のインド語の辞書語を生成する新しいモデルを提案する。
我々のモデルは、情報をエンコードするドメイン固有層とドメイン生成層から構成されており、これらの層は学習可能なルーティング技術を介して呼び出される。
我々はまた、8つの異なるドメインにまたがる6つのインド言語にまたがる75K以上の翻訳ペアからなる新しいベンチマークデータセットをリリースした。
また、未確認言語に対するポストホックな人的評価も実施する。
ソースコードとデータセットはhttps://github.com/Atulkmrsingh/lexgenにある。
関連論文リスト
- Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - Can Domains Be Transferred Across Languages in Multi-Domain Multilingual
Neural Machine Translation? [52.27798071809941]
本稿では,多言語NMTと多言語NMTの合成において,言語間でドメイン情報を転送できるかどうかを検討する。
マルチドメイン多言語(MDML)NMTは,BLEUで0ショット変換性能を+10ゲインまで向上させることができる。
論文 参考訳(メタデータ) (2022-10-20T23:13:54Z) - Using Linguistic Typology to Enrich Multilingual Lexicons: the Case of
Lexical Gaps in Kinship [4.970603969125883]
語彙的ギャップと言語固有の単語という概念を通して多様性の現象を捉えている。
我々は,198のドメイン概念,1,911のワード,37,370のギャップからなる語彙意味資源を公開している。
論文 参考訳(メタデータ) (2022-04-11T12:36:26Z) - MDAPT: Multilingual Domain Adaptive Pretraining in a Single Model [17.566140528671134]
一つの多言語ドメイン固有モデルが一般的な多言語モデルより優れていることを示す。
本稿では,言語モデルがドメイン固有かつ多言語的になるような事前学習コーパスを構成するための様々な手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:26Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。