論文の概要: Sememe Prediction for BabelNet Synsets using Multilingual and Multimodal
Information
- arxiv url: http://arxiv.org/abs/2203.07426v1
- Date: Mon, 14 Mar 2022 18:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 12:41:30.408170
- Title: Sememe Prediction for BabelNet Synsets using Multilingual and Multimodal
Information
- Title(参考訳): 多言語・多モーダル情報を用いたBabelNetのセメム予測
- Authors: Fanchao Qi, Chuancheng Lv, Zhiyuan Liu, Xiaojun Meng, Maosong Sun,
Hai-Tao Zheng
- Abstract要約: セメムナレッジベース(KB)は、手動でセメムでアノテートすることで構築される。
既存のSememe KBはいくつかの言語しかサポートしていないため、Sememeの利用を妨げている。
本稿では,多言語百科事典BabelNetをベースとした多言語セメムKBの構築を目的とする。
- 参考スコア(独自算出の注目度): 89.24684041258747
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In linguistics, a sememe is defined as the minimum semantic unit of
languages. Sememe knowledge bases (KBs), which are built by manually annotating
words with sememes, have been successfully applied to various NLP tasks.
However, existing sememe KBs only cover a few languages, which hinders the wide
utilization of sememes. To address this issue, the task of sememe prediction
for BabelNet synsets (SPBS) is presented, aiming to build a multilingual sememe
KB based on BabelNet, a multilingual encyclopedia dictionary. By automatically
predicting sememes for a BabelNet synset, the words in many languages in the
synset would obtain sememe annotations simultaneously. However, previous SPBS
methods have not taken full advantage of the abundant information in BabelNet.
In this paper, we utilize the multilingual synonyms, multilingual glosses and
images in BabelNet for SPBS. We design a multimodal information fusion model to
encode and combine this information for sememe prediction. Experimental results
show the substantial outperformance of our model over previous methods (about
10 MAP and F1 scores). All the code and data of this paper can be obtained at
https://github.com/thunlp/MSGI.
- Abstract(参考訳): 言語学では、セメムは言語の最小意味単位として定義される。
sememe knowledge bases (kbs) は、単語をsememeで注釈することで構築され、様々なnlpタスクにうまく適用されている。
しかし、既存のセメムkbは少数の言語しかカバーしていないため、セメムの幅広い利用を妨げている。
この問題に対処するために,多言語百科事典babelnetに基づく多言語セメムkbの構築を目的とした,babelnet synsets(spbs)のセメム予測タスクを提案する。
バベルネットシンセットのセメムを自動的に予測することによって、シンセット内の多くの言語の単語が同時にセメムアノテーションを取得する。
しかし、以前のSPBS法はBabelNetの豊富な情報を十分に活用していない。
本稿では,SPBSのためのBabelNetにおける多言語同義語,多言語グルース,画像を利用する。
我々は,この情報をエンコードし,組み合わせたマルチモーダル情報融合モデルを設計し,セメム予測を行う。
実験の結果,従来の手法(約10 MAP,F1 スコア)に比べて,モデルの性能は大幅に向上した。
この論文のコードとデータは、https://github.com/thunlp/MSGIで入手できる。
関連論文リスト
- Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language
Representations [83.96551676836776]
Babel-ImageNetは、92の言語に1000のImageNetラベルを部分的に翻訳する、非常に多言語なベンチマークである。
92のBabel-ImageNet言語に対して,ゼロショット画像分類 (ZS-IC) を用いた8種類の多言語CLIPモデルの評価を行った。
Babel-ImageNetにおけるモデルZS-ICの性能は,画像テキスト検索の性能と高い相関性を示す。
論文 参考訳(メタデータ) (2023-06-14T17:53:06Z) - Machine-Created Universal Language for Cross-lingual Transfer [73.44138687502294]
代替中間言語として,MUL(Machine-created Universal Language)を提案する。
MULは、MUL翻訳者に対する普遍的な語彙と自然言語を形成する独立したシンボルの集合からなる。
MULは、様々な言語から共有される概念を単一の普遍語に統一し、言語間の移動を強化する。
論文 参考訳(メタデータ) (2023-05-22T14:41:09Z) - Investigating the Translation Performance of a Large Multilingual
Language Model: the Case of BLOOM [8.858671209228536]
複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。
本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
論文 参考訳(メタデータ) (2023-03-03T13:23:42Z) - Discovering Language-neutral Sub-networks in Multilingual Language
Models [15.94622051535847]
多言語モデルの言語中立性は、これらのモデルの言語エンコードサブネットワーク間の重なり合いの関数である。
mBERTを基礎として、様々な言語やタスクに個別に最適化されたサブネットワークを見つけるために、宝くじの仮説を用いる。
我々は,mBERTは言語ニュートラルなサブネットワークと,複数の補助言語固有のサブネットワークで構成されていると結論付けた。
論文 参考訳(メタデータ) (2022-05-25T11:35:41Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Transferring Knowledge Distillation for Multilingual Social Event
Detection [42.663309895263666]
最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。
本稿では,多言語データストリーム中の事象を検出するために,言語間単語埋め込みを組み込んだGNNを提案する。
合成データセットと実世界のデータセットの両方の実験では、多言語データとトレーニングサンプルが不足している言語の両方において、検出に非常に効果的なフレームワークが示されている。
論文 参考訳(メタデータ) (2021-08-06T12:38:42Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。