論文の概要: Multilingual Central Repository: a Cross-lingual Framework for
Developing Wordnets
- arxiv url: http://arxiv.org/abs/2107.00333v2
- Date: Fri, 2 Jul 2021 12:10:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 06:18:11.181941
- Title: Multilingual Central Repository: a Cross-lingual Framework for
Developing Wordnets
- Title(参考訳): multilingual central repository: wordnetsを開発するためのクロスリンガルフレームワーク
- Authors: Xavier G\'omez Guinovart, Itziar Gonzalez-Dios, Antoni Oliver, German
Rigau
- Abstract要約: 本稿では,多言語中央リポジトリの開発に使用される多言語フレームワークについて述べる。
この知識ベースにはバスク語、カタルーニャ語、英語、ガリシア語、ポルトガル語のワードネットが含まれており、ベースコンセプト、トップオントロジー、WordNetドメイン、Suggested Upper Merged Ontologyが含まれる。
- 参考スコア(独自算出の注目度): 5.459389632295147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language resources are necessary for language processing,but building them is
costly, involves many researches from different areas and needs constant
updating. In this paper, we describe the crosslingual framework used for
developing the Multilingual Central Repository (MCR), a multilingual knowledge
base that includes wordnets of Basque, Catalan, English, Galician, Portuguese,
Spanish and the following ontologies: Base Concepts, Top Ontology, WordNet
Domains and Suggested Upper Merged Ontology. We present the story of MCR, its
state in 2017 and the developed tools.
- Abstract(参考訳): 言語処理には言語リソースが必要ですが、その構築にはコストがかかり、さまざまな分野の研究が必要で、常に更新が必要です。
本稿では,バスク語,カタルーニャ語,英語,ガリシア語,ポルトガル語,スペイン語,および以下のオントロジー(ベースコンセプト,トップオントロジー,WordNetドメイン,Suggested Upper Merged Ontology)を含む多言語知識基盤であるMCR(Multilingual Central Repository)の開発に使用されるクロスリンガルフレームワークについて述べる。
我々は、MCR、2017年の状態、および開発ツールについて紹介する。
関連論文リスト
- Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - A Review of Multilingualism in and for Ontologies [1.5736899098702972]
本レビューでは,OWLのモデル化オプションの解明と比較,<i>Multilingualism</i>,<i>Multilingualism</i>(i>Multilingualism</i>),<i>Multilinguality</i>(i>Multilingualism</i>)について検討する。
DataBench と LOVBench のリポジトリでは,BioPortal と LOVBench からそれぞれ生産レベルとアクセス可能なものを抽出した。
複数言語ベースのエディタを管理するための9つのツール要件に基づいて、7つのストックテイクエディタの評価を行った結果、ツーリングサポートには大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2022-10-06T10:35:07Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - Meta-X$_{NLG}$: A Meta-Learning Approach Based on Language Clustering
for Zero-Shot Cross-Lingual Transfer and Generation [11.155430893354769]
本稿では,類型的に多様な言語から共有可能な構造を学習するためのメタラーニングフレームワークを提案する。
まず、まず言語表現に基づいて言語をクラスタ化し、各クラスタのセントロイド言語を識別する。
メタ学習アルゴリズムは、全てのセントロイド言語で訓練され、ゼロショット設定で他の言語で評価される。
論文 参考訳(メタデータ) (2022-03-19T05:22:07Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文 参考訳(メタデータ) (2021-10-14T19:33:04Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。