論文の概要: Evaluation Of Word Embeddings From Large-Scale French Web Content
- arxiv url: http://arxiv.org/abs/2105.01990v1
- Date: Wed, 5 May 2021 11:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:50:56.321075
- Title: Evaluation Of Word Embeddings From Large-Scale French Web Content
- Title(参考訳): 大規模フレンチウェブコンテンツからの単語埋め込みの評価
- Authors: Hadi Abdine (1), Christos Xypolopoulos (1), Moussa Kamal Eddine (1),
Michalis Vazirgiannis (1 and 2) ((1) Ecole Polytechnique, (2) AUEB)
- Abstract要約: 本稿では,フランス語用高品位単語ベクトルについて述べる。
そのうち2つは巨大なフランスのデータで訓練され、もう1つは既存のフランスのコーパスで訓練されています。
得られた単語の埋め込みをテストして視覚化するデモWebアプリケーションを作成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed word representations are popularly used in many tasks in natural
language processing, adding that pre-trained word vectors on huge text corpus
achieved high performance in many different NLP tasks. This paper introduces
multiple high quality word vectors for the French language where two of them
are trained on huge crawled French data and the others are trained on an
already existing French corpus. We also evaluate the quality of our proposed
word vectors and the existing French word vectors on the French word analogy
task. In addition, we do the evaluation on multiple real NLP tasks that show
the important performance enhancement of the pre-trained word vectors compared
to the existing and random ones. Finally, we created a demo web application to
test and visualize the obtained word embeddings. The produced French word
embeddings are available to the public, along with the fine-tuning code on the
NLU tasks and the demo code.
- Abstract(参考訳): 分散語表現は自然言語処理における多くのタスクで広く使われており、巨大なテキストコーパス上の事前訓練語ベクトルは多くの異なるNLPタスクで高い性能を達成した。
本稿では,複数の高品質な単語ベクトルをフランス語に導入し,その中の2つを巨大なクロールしたフランス語データで訓練し,他の2つを既存のフランス語コーパスで訓練する。
また、提案した単語ベクトルと既存のフランス語単語ベクトルの品質を、フランス語単語類似タスク上で評価する。
さらに,既存のものやランダムなものと比較して,事前学習した単語ベクトルの重要性能向上を示す複数の実NLPタスクの評価を行う。
最後に、得られた単語埋め込みをテストして視覚化するデモwebアプリケーションを作成しました。
生成されたフランス語の単語の埋め込みと、NLUタスクの微調整コード、デモコードも公開されている。
関連論文リスト
- UAlberta at SemEval-2023 Task 1: Context Augmentation and Translation
for Multilingual Visual Word Sense Disambiguation [4.453335084914169]
本稿では,SemEval-2023 Visual Word Sense Disambiguation (V-WSD) Taskについてアルバータ大学のシステムについて述べる。
本稿では,BabelNetから取得したグロスとテキストと画像エンコーダを組み合わせた新しいアルゴリズムを提案する。
また、翻訳テキストへの英語エンコーダの適用と、言語固有のエンコーダを比較した。
論文 参考訳(メタデータ) (2023-06-24T22:00:06Z) - Are the Best Multilingual Document Embeddings simply Based on Sentence
Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。
文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-28T12:11:21Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Searching for Discriminative Words in Multidimensional Continuous
Feature Space [0.0]
文書から識別キーワードを抽出する新しい手法を提案する。
異なる差別的指標が全体的な結果にどのように影響するかを示す。
単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-26T18:05:11Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - 1Cademy at Semeval-2022 Task 1: Investigating the Effectiveness of
Multilingual, Multitask, and Language-Agnostic Tricks for the Reverse
Dictionary Task [13.480318097164389]
本稿では,SemEval2022タスクの逆辞書トラックに着目し,単語の埋め込みと辞書のグルースをマッチングする。
モデルは文の入力をSGNS、Char、Electraの3種類の埋め込みに変換する。
提案するElmoベースの単言語モデルが最も高い結果を得る。
論文 参考訳(メタデータ) (2022-06-08T06:39:04Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。