論文の概要: The Challenge of Diacritics in Yoruba Embeddings
- arxiv url: http://arxiv.org/abs/2011.07605v1
- Date: Sun, 15 Nov 2020 19:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 06:56:27.099618
- Title: The Challenge of Diacritics in Yoruba Embeddings
- Title(参考訳): ヨルバ埋め込みにおけるダイアクリティックの課題
- Authors: Tosin P. Adewumi, Foteini Liwicki and Marcus Liwicki
- Abstract要約: ヨルバ語は声調言語であり、ダイアクリティカル語を表記形式で用いている。
これは、全く同じウィキペディアデータセットから埋め込みを生成することで、埋め込み性能に影響を与えるが、2番目は正規化され、未記述であることを示す。
- 参考スコア(独自算出の注目度): 1.6507910904669727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The major contributions of this work include the empirical establishment of a
better performance for Yoruba embeddings from undiacritized (normalized)
dataset and provision of new analogy sets for evaluation. The Yoruba language,
being a tonal language, utilizes diacritics (tonal marks) in written form. We
show that this affects embedding performance by creating embeddings from
exactly the same Wikipedia dataset but with the second one normalized to be
undiacritized. We further compare average intrinsic performance with two other
work (using analogy test set & WordSim) and we obtain the best performance in
WordSim and corresponding Spearman correlation.
- Abstract(参考訳): この研究の主な貢献は、未分類(正規化)データセットからのYoruba埋め込みのより良いパフォーマンスの実証的確立と、評価のための新しいアナロジーセットの提供である。
ヨルバ語は声調言語であり、ダイアクリティカルス(音節記号)を表記形式で用いている。
これは、全く同じウィキペディアデータセットから埋め込みを生成することで、埋め込み性能に影響を与えるが、2番目は正規化され、未記述であることを示す。
平均固有性能と他の2つの作業(類似テストセットとWordSim)を比較し,WordSimとそれに対応するSpearman相関の最適性能を得る。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Take the Hint: Improving Arabic Diacritization with
Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。
また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文 参考訳(メタデータ) (2023-06-06T10:18:17Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - Comparing in context: Improving cosine similarity measures with a metric
tensor [0.0]
コサイン類似性は、言語モデリングの目標に基づいて訓練された事前訓練された単語埋め込みの関連性の尺度として広く用いられている。
そこで我々は,そのタスクの性能向上のために,拡張されたコサイン類似度尺度を用いることを提案する。
我々は、文脈化メトリクスを学習し、標準コサイン類似度尺度を用いて得られた基準値と比較し、常に改善を示す。
また、SimLex-999 と WordSim-353 のコンテキスト化類似度尺度をトレーニングし、結果と対応するベースラインを比較し、これらのデータセットを学習した全コンテキスト類似度尺度の独立したテストセットとして使用する。
論文 参考訳(メタデータ) (2022-03-28T18:04:26Z) - Analyzing the Use of Character-Level Translation with Sparse and Noisy
Datasets [20.50917929755389]
キャラクタレベルのモデルでは、スパースやノイズの多いデータセットに適用すると、翻訳されていない単語の数が40%以上削減されることがわかった。
文字アライメント,フレーズテーブルフィルタリング,bitextサイズ,およびピボット言語の選択が翻訳品質に与える影響について検討する。
ワードノーキャラクタ-BLEUは、BLEUの長さに対する感度のため、人間の判断と完全に相関しない。
論文 参考訳(メタデータ) (2021-09-27T07:35:47Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - Deep Diacritization: Efficient Hierarchical Recurrence for Improved
Arabic Diacritization [0.0]
本稿では,Tashkeela Arabic diacritizationベンチマークにおいて,文字列のラベル付けのための新しいアーキテクチャを提案する。
コアは2段階の繰り返し階層であり、単語レベルと文字レベルを別々に操作する。
クロスレベルアテンションモジュールは、さらにこの2つを接続し、ネットワーク解釈性のための扉を開く。
論文 参考訳(メタデータ) (2020-11-01T15:33:43Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Paraphrasing vs Coreferring: Two Sides of the Same Coin [28.80553558538015]
2つの異なるNLPタスク間のシナジーについて検討する。
イベントコアスデータセットからのアノテーションを、リスコアで抽出された述語パラフレーズの遠隔監視に使用しています。
私たちはまた、最先端のイベントコア参照解決モデルに付加的な入力として、同じ再ランク機能を使用します。
論文 参考訳(メタデータ) (2020-04-30T17:29:17Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。