論文の概要: RuDSI: graph-based word sense induction dataset for Russian
- arxiv url: http://arxiv.org/abs/2209.13750v1
- Date: Wed, 28 Sep 2022 00:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:47:23.223173
- Title: RuDSI: graph-based word sense induction dataset for Russian
- Title(参考訳): RuDSI:ロシア語用グラフベース単語知覚誘導データセット
- Authors: Anna Aksenova, Ekaterina Gavrishina, Elisey Rykov, Andrey Kutuzov
- Abstract要約: RuDSIはロシア語で単語感覚誘導(WSI)のための新しいベンチマークである。
完全にデータ駆動であり、アノテータに外部語感覚を課すことはない。
- 参考スコア(独自算出の注目度): 1.997704019887898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present RuDSI, a new benchmark for word sense induction (WSI) in Russian.
The dataset was created using manual annotation and semi-automatic clustering
of Word Usage Graphs (WUGs). Unlike prior WSI datasets for Russian, RuDSI is
completely data-driven (based on texts from Russian National Corpus), with no
external word senses imposed on annotators. Depending on the parameters of
graph clustering, different derivative datasets can be produced from raw
annotation. We report the performance that several baseline WSI methods obtain
on RuDSI and discuss possibilities for improving these scores.
- Abstract(参考訳): ロシア語で単語感覚誘導(WSI)のための新しいベンチマークであるRuDSIを提案する。
このデータセットは、Word Usage Graphs(WUG)のマニュアルアノテーションと半自動クラスタリングを使用して作成された。
以前のロシア語のwsiデータセットとは異なり、rudsiは完全にデータ駆動であり(ロシア国立コーパスのテキストに基づく)、外部の単語のセンスはアノテーションに課されていない。
グラフクラスタリングのパラメータによって、異なる派生データセットを生のアノテーションから生成することができる。
本稿では,いくつかのベースラインWSI手法がRuDSIで得られる性能について報告する。
関連論文リスト
- The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design [39.80182519545138]
本稿では,ロシア語の埋め込みモデルに関する研究に焦点をあてる。
ru-en-RoSBERTaと呼ばれる新しいロシアの埋め込みモデルとruMTEBベンチマークを導入している。
論文 参考訳(メタデータ) (2024-08-22T15:53:23Z) - Semantic Change Detection for the Romanian Language [0.5202524136984541]
実世界のデータセット上に静的および文脈的単語埋め込みモデルを作成するための様々な戦略を分析する。
まず,英語データセット (SEMEVAL-CCOHA) とルーマニア語データセット (SEMEVAL-CCOHA) で単語埋め込みモデルの評価を行った。
実験結果から,コーパスによっては,モデルの選択と,意味的変化を検出するためのスコアを計算するための距離が最も重要な要因であることが示唆された。
論文 参考訳(メタデータ) (2023-08-23T13:37:02Z) - A big data approach towards sarcasm detection in Russian [0.0]
本稿では,ロシア語の屈折と自動テキスト合成のための決定論的アルゴリズムを提案する。
これらのアルゴリズムは、公開のWebサービスwww.passare.ruで実装されている。
論文 参考訳(メタデータ) (2023-06-01T08:34:26Z) - Characterizing and Measuring Linguistic Dataset Drift [65.28821163863665]
本稿では,語彙,構造,意味的ドリフトという3次元の言語データセットドリフトを提案する。
これらの次元は、内容語頻度の発散、統語的発散、および単語周波数で捉えない意味の変化に対応している。
ドリフトメトリクスは、ドメイン外モデルの精度を予測する上で、以前のメトリクスよりも効果的であることが分かりました。
論文 参考訳(メタデータ) (2023-05-26T17:50:51Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - FEWS: Large-Scale, Low-Shot Word Sense Disambiguation with the
Dictionary [43.32179344258548]
Word Sense Disambiguation (WSD) の現在のモデルは、稀な感覚の曖昧化に苦慮している。
本稿では、wiktionaryの例文から自動的に抽出される新しい低ショットwsdデータセットである fews を紹介する。
論文 参考訳(メタデータ) (2021-02-16T07:13:34Z) - Graph-to-Sequence Neural Machine Translation [79.0617920270817]
グラフ変換器(Graph-Transformer)と呼ばれるグラフベースのSANベースのNMTモデルを提案する。
サブグラフは順番に応じて異なるグループに分類され、各サブグラフは単語間の依存度をそれぞれ異なるレベルに反映する。
提案手法は,WMT14ドイツ語データセットの1.1BLEU点,IWSLT14ドイツ語データセットの1.0BLEU点の改善により,トランスフォーマーを効果的に向上させることができる。
論文 参考訳(メタデータ) (2020-09-16T06:28:58Z) - Dataset for Automatic Summarization of Russian News [0.0]
ロシアのニュースを要約する最初のデータセットであるGazetaを紹介します。
このデータセットがロシア語のテキスト要約手法の有効なタスクであることを実証する。
論文 参考訳(メタデータ) (2020-06-19T10:44:06Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。