論文の概要: Dirichlet-Smoothed Word Embeddings for Low-Resource Settings
- arxiv url: http://arxiv.org/abs/2006.12414v1
- Date: Mon, 22 Jun 2020 16:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 06:15:14.617085
- Title: Dirichlet-Smoothed Word Embeddings for Low-Resource Settings
- Title(参考訳): 低リソース設定のためのdirichlet-smoothed word embeddeds
- Authors: Jakob Jungmaier, Nora Kassner, Benjamin Roth
- Abstract要約: 本稿では,レアワードに対するバイアスを補正するためにディリクレ平滑化を加えてPPMIを再検討する。
我々は、標準的な単語類似度データセットを評価し、ワード2vecと最近の低リソース設定技術の現状を比較した: 単語埋め込みのための肯定的および未ラベル(PU)学習。
- 参考スコア(独自算出の注目度): 8.55730813800171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, classical count-based word embeddings using positive pointwise
mutual information (PPMI) weighted co-occurrence matrices have been widely
superseded by machine-learning-based methods like word2vec and GloVe. But these
methods are usually applied using very large amounts of text data. In many
cases, however, there is not much text data available, for example for specific
domains or low-resource languages. This paper revisits PPMI by adding Dirichlet
smoothing to correct its bias towards rare words. We evaluate on standard word
similarity data sets and compare to word2vec and the recent state of the art
for low-resource settings: Positive and Unlabeled (PU) Learning for word
embeddings. The proposed method outperforms PU-Learning for low-resource
settings and obtains competitive results for Maltese and Luxembourgish.
- Abstract(参考訳): 近年, 正点相互情報(PPMI)重み付き共起行列を用いた古典的カウントベースの単語埋め込みは, word2vec や GloVe といった機械学習に基づく手法に取って代わられている。
しかし、これらの手法は通常、非常に大量のテキストデータを使って適用されます。
しかし多くの場合、特定のドメインや低リソース言語など、利用可能なテキストデータは多くない。
本稿では,レアワードに対するバイアスを補正するためにディリクレ平滑化を加えてPPMIを再検討する。
我々は、標準的な単語類似度データセットを評価し、ワード2vecと最近の低リソース設定技術の現状を比較した: 単語埋め込みのための肯定的および未ラベル(PU)学習。
提案手法は,低リソース環境でのPU-Learningより優れ,マルタ語とルクセンブルク語との競合結果が得られる。
関連論文リスト
- Forget NLI, Use a Dictionary: Zero-Shot Topic Classification for Low-Resource Languages with Application to Luxembourgish [6.6635650150737815]
NLPでは、ゼロショット分類(ゼロショット分類、ゼロショット分類、ZSC)は、ターゲットクラスのラベル付き例を使わずに、ラベルをテキストデータに割り当てるタスクである。
辞書をZSCのデータソースとして活用する代替ソリューションを提案する。
我々は、ルクセンブルクで話される低リソース言語であるLuxembourgishに注目し、新しいトピック関連分類データセットを2つ構築する。
論文 参考訳(メタデータ) (2024-04-05T06:35:31Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Word Sense Induction with Knowledge Distillation from BERT [6.88247391730482]
本稿では、文脈における単語の感覚に注意を払って、事前学習された言語モデル(BERT)から複数の単語感覚を抽出する手法を提案する。
文脈的単語類似性および感覚誘導タスクの実験は、この手法が最先端のマルチセンス埋め込みよりも優れているか、あるいは競合していることを示している。
論文 参考訳(メタデータ) (2023-04-20T21:05:35Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Systematic Investigation of Strategies Tailored for Low-Resource
Settings for Sanskrit Dependency Parsing [14.416855042499945]
Sanskrit Dependency Parsing (SDP) の既存の手法は、本質的にハイブリッドである。
純粋にデータ駆動アプローチは、ラベル付きデータ間隔によるハイブリッドアプローチのパフォーマンスにマッチしない。
我々は、データ強化、シーケンシャルトランスファーラーニング、クロスランガル/モノランガル事前学習、マルチタスク学習、自己学習の5つの戦略を実験した。
提案するアンサンブルシステムは, 純粋にデータ駆動状態よりも2.8/3.9ポイント(Unlabelled Attachment Score (UAS)/Labelled Attachment Score (LAS))の絶対ゲインに優れる。
論文 参考訳(メタデータ) (2022-01-27T08:24:53Z) - Cross-lingual alignments of ELMo contextual embeddings [0.0]
言語間埋め込みは、低リソース言語から高リソース言語への単語の埋め込みをマッピングする。
最近の文脈埋め込みの言語間マッピングを作成するには、埋め込み空間間のアンカーポイントは、同じ文脈における単語でなければならない。
ELMo埋め込みのための新しい言語間マッピング手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T11:26:43Z) - TF-CR: Weighting Embeddings for Text Classification [6.531659195805749]
本稿では,単語埋め込みの計算において,高頻度のカテゴリー排他語を重み付け可能な新しい重み付け方式TF-CRを提案する。
16の分類データセットの実験はTF-CRの有効性を示し、既存の重み付け方式よりもパフォーマンススコアが向上した。
論文 参考訳(メタデータ) (2020-12-11T19:23:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Text Classification with Few Examples using Controlled Generalization [58.971750512415134]
現在の実践は、トレーニング中に見えない単語を、類似した単語とマッピングするために、事前訓練された単語埋め込みに依存している。
私たちの代替案は、未ラベルのパースコーパスから派生したスパース事前訓練された表現から始まります。
これらのベクトル上のフィードフォワードネットワークは、特に低データシナリオにおいて有効であることを示す。
論文 参考訳(メタデータ) (2020-05-18T06:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。