論文の概要: A Novel Challenge Set for Hebrew Morphological Disambiguation and
Diacritics Restoration
- arxiv url: http://arxiv.org/abs/2010.02864v1
- Date: Tue, 6 Oct 2020 16:34:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:15:26.112470
- Title: A Novel Challenge Set for Hebrew Morphological Disambiguation and
Diacritics Restoration
- Title(参考訳): ヘブライ語の形態的曖昧さとダイアクリティックス回復のための新しい挑戦セット
- Authors: Avi Shmidman, Joshua Guedalia, Shaltiel Shmidman, Moshe Koppel, Reut
Tsarfaty
- Abstract要約: 私たちはヘブライ語のホモグラフに挑戦セットを提供します。
ヘブライ語の曖昧さのSOTAは、アンバランスな曖昧さのケースでは不十分であることを示す。
我々は21語すべてに対して新たな最先端を実現し、平均F1スコアを0.67から0.95に改善した。
- 参考スコア(独自算出の注目度): 8.704581499692651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the primary tasks of morphological parsers is the disambiguation of
homographs. Particularly difficult are cases of unbalanced ambiguity, where one
of the possible analyses is far more frequent than the others. In such cases,
there may not exist sufficient examples of the minority analyses in order to
properly evaluate performance, nor to train effective classifiers. In this
paper we address the issue of unbalanced morphological ambiguities in Hebrew.
We offer a challenge set for Hebrew homographs -- the first of its kind --
containing substantial attestation of each analysis of 21 Hebrew homographs. We
show that the current SOTA of Hebrew disambiguation performs poorly on cases of
unbalanced ambiguity. Leveraging our new dataset, we achieve a new
state-of-the-art for all 21 words, improving the overall average F1 score from
0.67 to 0.95. Our resulting annotated datasets are made publicly available for
further research.
- Abstract(参考訳): 形態解析学の主要な課題の1つは、ホモグラフの曖昧さである。
特に難しいのは、アンバランスな曖昧さのケースであり、分析可能な1つが他のものよりもはるかに頻度が高い。
そのような場合、性能を適切に評価したり、効果的な分類器を訓練するために、マイノリティ分析の十分な例が存在しない可能性がある。
本稿ではヘブライ語における不均衡な形態的曖昧さの問題に対処する。
我々は、21のヘブライのホモグラフの各々の分析の実質的な証明を含む、ヘブライのホモグラフの最初の挑戦セットを提供する。
ヘブライ語の曖昧さのSOTAは、アンバランスな曖昧さのケースでは不十分であることを示す。
新たなデータセットを活用することで,21単語すべてに対して新たな最先端技術を実現し,平均f1スコアを0.67から0.95に改善した。
得られた注釈付きデータセットは、さらなる研究のために公開されています。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Persian Homograph Disambiguation: Leveraging ParsBERT for Enhanced Sentence Understanding with a Novel Word Disambiguation Dataset [0.0]
ペルシャのホモグラフの曖昧化に適した新しいデータセットを提案する。
本研究は,コサイン類似性法による各種埋没物の徹底的な探索を含む。
我々は、精度、リコール、F1スコアの観点からモデルの性能を精査する。
論文 参考訳(メタデータ) (2024-05-24T14:56:36Z) - Do Pretrained Contextual Language Models Distinguish between Hebrew Homograph Analyses? [12.631897904322676]
本研究では,ヘブライ語のホモグラフの曖昧さについて,事前学習言語モデルを用いて検討する。
現代ヘブライ語における文脈的埋め込みは,非文脈的埋め込みよりも優れていることを示す。
また、これらの埋め込みは、バランスの取れた分布と歪んだ分布の両方のホモグラフに対して等しく有効であることを示す。
論文 参考訳(メタデータ) (2024-05-11T21:50:56Z) - Revisiting subword tokenization: A case study on affixal negation in large language models [57.75279238091522]
現代英語大言語モデル(LLM)に対する接尾辞否定の影響を計測する。
我々は、異なるサブワードトークン化手法を用いてLLMを用いて実験を行う。
モデルは全体として、接尾辞の意味を確実に認識できることを示す。
論文 参考訳(メタデータ) (2024-04-03T03:14:27Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Investigating Multilingual Coreference Resolution by Universal
Annotations [11.035051211351213]
本研究では,言語レベルでの真理データを調べることによって,コア推論について検討する。
我々は、SotAシステムが解決できない最も困難なケースのエラー解析を行う。
普遍的な形態素的アノテーションから特徴を抽出し,これらの特徴をベースラインシステムに統合し,その潜在的な利点を評価する。
論文 参考訳(メタデータ) (2023-10-26T18:50:04Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Inference-only sub-character decomposition improves translation of
unseen logographic characters [18.148675498274866]
ログソース言語上のニューラルマシン翻訳(NMT)は、未知の文字を翻訳する際に苦労する。
中国語と日本語のNMTにおける既存のイデオログラフに基づくサブ文字分解手法について検討する。
完全部分文字分解は文字翻訳を損なうことが多く、概して矛盾する結果をもたらす。
論文 参考訳(メタデータ) (2020-11-12T17:36:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。