論文の概要: Sememe Prediction for BabelNet Synsets using Multilingual and Multimodal
Information
- arxiv url: http://arxiv.org/abs/2203.07426v1
- Date: Mon, 14 Mar 2022 18:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 12:41:30.408170
- Title: Sememe Prediction for BabelNet Synsets using Multilingual and Multimodal
Information
- Title(参考訳): 多言語・多モーダル情報を用いたBabelNetのセメム予測
- Authors: Fanchao Qi, Chuancheng Lv, Zhiyuan Liu, Xiaojun Meng, Maosong Sun,
Hai-Tao Zheng
- Abstract要約: セメムナレッジベース(KB)は、手動でセメムでアノテートすることで構築される。
既存のSememe KBはいくつかの言語しかサポートしていないため、Sememeの利用を妨げている。
本稿では,多言語百科事典BabelNetをベースとした多言語セメムKBの構築を目的とする。
- 参考スコア(独自算出の注目度): 89.24684041258747
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In linguistics, a sememe is defined as the minimum semantic unit of
languages. Sememe knowledge bases (KBs), which are built by manually annotating
words with sememes, have been successfully applied to various NLP tasks.
However, existing sememe KBs only cover a few languages, which hinders the wide
utilization of sememes. To address this issue, the task of sememe prediction
for BabelNet synsets (SPBS) is presented, aiming to build a multilingual sememe
KB based on BabelNet, a multilingual encyclopedia dictionary. By automatically
predicting sememes for a BabelNet synset, the words in many languages in the
synset would obtain sememe annotations simultaneously. However, previous SPBS
methods have not taken full advantage of the abundant information in BabelNet.
In this paper, we utilize the multilingual synonyms, multilingual glosses and
images in BabelNet for SPBS. We design a multimodal information fusion model to
encode and combine this information for sememe prediction. Experimental results
show the substantial outperformance of our model over previous methods (about
10 MAP and F1 scores). All the code and data of this paper can be obtained at
https://github.com/thunlp/MSGI.
- Abstract(参考訳): 言語学では、セメムは言語の最小意味単位として定義される。
sememe knowledge bases (kbs) は、単語をsememeで注釈することで構築され、様々なnlpタスクにうまく適用されている。
しかし、既存のセメムkbは少数の言語しかカバーしていないため、セメムの幅広い利用を妨げている。
この問題に対処するために,多言語百科事典babelnetに基づく多言語セメムkbの構築を目的とした,babelnet synsets(spbs)のセメム予測タスクを提案する。
バベルネットシンセットのセメムを自動的に予測することによって、シンセット内の多くの言語の単語が同時にセメムアノテーションを取得する。
しかし、以前のSPBS法はBabelNetの豊富な情報を十分に活用していない。
本稿では,SPBSのためのBabelNetにおける多言語同義語,多言語グルース,画像を利用する。
我々は,この情報をエンコードし,組み合わせたマルチモーダル情報融合モデルを設計し,セメム予測を行う。
実験の結果,従来の手法(約10 MAP,F1 スコア)に比べて,モデルの性能は大幅に向上した。
この論文のコードとデータは、https://github.com/thunlp/MSGIで入手できる。
関連論文リスト
- MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations [53.89380284760555]
Babel-ImageNetは,100言語へのイメージネットラベルの部分的翻訳を提供する,多言語ベンチマークである。
我々は,11の公開多言語CLIPモデルをベンチマークで評価し,イングリッシュイメージネットの性能と高ソース言語との差を顕著に示した。
パラメータ効率のよい言語特化学習を行う低リソース言語に対して,多言語CLIPの性能を劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T17:53:06Z) - Machine-Created Universal Language for Cross-lingual Transfer [73.44138687502294]
代替中間言語として,MUL(Machine-created Universal Language)を提案する。
MULは、MUL翻訳者に対する普遍的な語彙と自然言語を形成する独立したシンボルの集合からなる。
MULは、様々な言語から共有される概念を単一の普遍語に統一し、言語間の移動を強化する。
論文 参考訳(メタデータ) (2023-05-22T14:41:09Z) - Investigating the Translation Performance of a Large Multilingual
Language Model: the Case of BLOOM [8.858671209228536]
複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。
本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
論文 参考訳(メタデータ) (2023-03-03T13:23:42Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Transferring Knowledge Distillation for Multilingual Social Event
Detection [42.663309895263666]
最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。
本稿では,多言語データストリーム中の事象を検出するために,言語間単語埋め込みを組み込んだGNNを提案する。
合成データセットと実世界のデータセットの両方の実験では、多言語データとトレーニングサンプルが不足している言語の両方において、検出に非常に効果的なフレームワークが示されている。
論文 参考訳(メタデータ) (2021-08-06T12:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。