Fugu-MT 論文翻訳(概要): SimRelUz: Similarity and Relatedness scores as a Semantic Evaluation dataset for Uzbek language

論文の概要: SimRelUz: Similarity and Relatedness scores as a Semantic Evaluation dataset for Uzbek language

arxiv url: http://arxiv.org/abs/2205.06072v1
Date: Thu, 12 May 2022 13:11:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-13 19:23:19.668458
Title: SimRelUz: Similarity and Relatedness scores as a Semantic Evaluation dataset for Uzbek language
Title（参考訳）: SimRelUz: ウズベキスタン語のセマンティック評価データセットとしての類似性と関連性スコア
Authors: Ulugbek Salaev, Elmurod Kuriyozov, Carlos G\'omez-Rodr\'iguez
Abstract要約: セマンティックモデル評価データセットSimRelUzを提案する。データセットは、その形態的特徴に基づいて慎重に選択された1000組以上の単語から構成される。また,まれな単語や語彙外単語を扱うという問題にも注意を払っている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semantic relatedness between words is one of the core concepts in natural language processing, thus making semantic evaluation an important task. In this paper, we present a semantic model evaluation dataset: SimRelUz - a collection of similarity and relatedness scores of word pairs for the low-resource Uzbek language. The dataset consists of more than a thousand pairs of words carefully selected based on their morphological features, occurrence frequency, semantic relation, as well as annotated by eleven native Uzbek speakers from different age groups and gender. We also paid attention to the problem of dealing with rare words and out-of-vocabulary words to thoroughly evaluate the robustness of semantic models.
Abstract（参考訳）: 単語間の意味的関連性は自然言語処理の核となる概念の一つであり,意味的評価が重要な課題である。本稿では,低リソースのウズベク語のための単語ペアの類似度と関連度の集合であるsimreluzという意味モデル評価データセットを提案する。データセットは、その形態的特徴、出現頻度、意味関係、および異なる年齢層と性別の11人のウズベク語話者による注釈に基づいて慎重に選択された1000組以上の単語からなる。また,稀な単語や語彙外単語を扱う問題にも注意を払って,意味モデルの頑健さを徹底的に評価した。

関連論文リスト

On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文参考訳（メタデータ） (2026-01-09T22:01:56Z)
SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation [55.26111461168754]
本稿では,文レベルの意味理解とキーワードレベルの意味理解と簡単なキーワードマッチングを組み合わせた新しいアプローチであるSemantic Metric Integrating Lexical Exactnessを紹介する。人間の判断と計算学的に軽量であり、語彙的評価と意味的評価のギャップを埋める。
論文参考訳（メタデータ） (2025-11-21T17:30:18Z)
Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。グループ化されたサブワードの検査では様々な意味的類似性を示します
論文参考訳（メタデータ） (2024-11-07T08:38:32Z)
Investigating Idiomaticity in Word Representations [9.208145117062339]
我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。 AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
論文参考訳（メタデータ） (2024-11-04T21:05:01Z)
SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文参考訳（メタデータ） (2024-02-13T18:04:53Z)
Agentivit\`a e telicit\`a in GilBERTo: implicazioni cognitive [77.71680953280436]
本研究の目的は,トランスフォーマーに基づくニューラルネットワークモデルが語彙意味論を推論するかどうかを検討することである。考慮される意味的性質は、テリシティ(定性とも組み合わされる)と作用性である。
論文参考訳（メタデータ） (2023-07-06T10:52:22Z)
Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文参考訳（メタデータ） (2023-05-29T16:24:01Z)
CompoundPiece: Evaluating and Improving Decompounding Performance of Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。 We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。分割のための専用モデルを訓練するための新しい手法を導入する。
論文参考訳（メタデータ） (2023-05-23T16:32:27Z)
Topics in the Haystack: Extracting and Evaluating Topics beyond Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文参考訳（メタデータ） (2023-03-30T12:24:25Z)
Patterns of Lexical Ambiguity in Contextualised Language Models [9.747449805791092]
本稿では,単語感覚の類似度と共述度を拡張した,人間による注釈付きデータセットを提案する。どちらの人間の判断も、多文解釈の類似性は意味の同一性とホモニミーの連続性にあることを示している。我々のデータセットは、語彙的曖昧性の複雑さの大部分を捉えており、文脈的埋め込みのための現実的なテストベッドを提供することができる。
論文参考訳（メタデータ） (2021-09-27T13:11:44Z)
Sentiment analysis in tweets: an assessment study from classical to modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文参考訳（メタデータ） (2021-05-29T21:05:28Z)
Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文参考訳（メタデータ） (2021-04-20T17:56:24Z)
Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。適切な単語の埋め込みを選択することは複雑な作業ですなぜなら、投影された埋め込み空間は人間にとって直感的ではないからです
論文参考訳（メタデータ） (2020-05-08T01:16:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。