論文の概要: Czech News Dataset for Semantic Textual Similarity
- arxiv url: http://arxiv.org/abs/2108.08708v2
- Date: Mon, 23 Aug 2021 07:12:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 11:30:16.076502
- Title: Czech News Dataset for Semantic Textual Similarity
- Title(参考訳): 意味的テキスト類似性のためのチェコ語ニュースデータセット
- Authors: Jakub Sido, Michal Sej\'ak, Ond\v{r}ej Pra\v{z}\'ak, Miloslav
Konop\'ik, V\'aclav Moravec
- Abstract要約: 本稿では,意味的類似性アノテーションを用いた文からなる新しいデータセットについて述べる。
このデータは、チェコ語におけるジャーナリストの領域に由来する。
データセットには、138,556人のアノテーションが列車とテストセットに分割されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper describes a novel dataset consisting of sentences with semantic
similarity annotations. The data originate from the journalistic domain in the
Czech language. We describe the process of collecting and annotating the data
in detail. The dataset contains 138,556 human annotations divided into train
and test sets. In total, 485 journalism students participated in the creation
process. To increase the reliability of the test set, we compute the annotation
as an average of 9 individual annotations. We evaluate the quality of the
dataset by measuring inter and intra annotation annotators' agreements. Beside
agreement numbers, we provide detailed statistics of the collected dataset. We
conclude our paper with a baseline experiment of building a system for
predicting the semantic similarity of sentences. Due to the massive number of
training annotations (116 956), the model can perform significantly better than
an average annotator (0,92 versus 0,86 of Person's correlation coefficients).
- Abstract(参考訳): 本稿では,意味的類似性アノテーションを持つ文からなる新しいデータセットについて述べる。
このデータはチェコ語におけるジャーナリストの領域に由来する。
データの収集と注釈付けのプロセスについて詳述する。
データセットには、138,556人のアノテーションが列車とテストセットに分割されている。
合計485人のジャーナリズム学生が作成プロセスに参加した。
テストセットの信頼性を高めるために、アノテーションを平均9個の個別アノテーションとして計算する。
アノテーションアノテータ間のアノテータ間の合意を計測することで,データセットの品質を評価する。
合意番号の他に、収集したデータセットの詳細な統計情報を提供する。
本稿では,文の意味的類似性を予測するシステムを構築するための基礎実験を行った。
大量のトレーニングアノテーション(116 956)により、平均アノテータ (0,92対0,86対人相関係数) よりもはるかに優れた性能を発揮する。
関連論文リスト
- Annotator in the Loop: A Case Study of In-Depth Rater Engagement to Create a Bridging Benchmark Dataset [1.825224193230824]
本稿では,アノテーションのための新規かつ協調的かつ反復的なアノテーション手法について述べる。
以上の結果から,アノテータとの連携によりアノテーションの手法が強化されることが示唆された。
論文 参考訳(メタデータ) (2024-08-01T19:11:08Z) - Paloma: A Benchmark for Evaluating Language Model Fit [114.63031978259467]
言語モデルアセスメント(Paloma)は585のテキストドメインに適合する。
一般的なコーパスで事前学習したベースラインの結果をベンチマークに投入する。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Rooms with Text: A Dataset for Overlaying Text Detection [0.18275108630751835]
オーバレイとシーンテキストを用いた室内画像の新しいデータセットを導入し,計4836枚の注釈付き画像を25種類の製品カテゴリに分類した。
本稿では,文字領域を意識したテキスト検出フレームワークを活用して分類モデルを導出するテキスト検出のベースライン手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T11:04:41Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - What Makes Sentences Semantically Related: A Textual Relatedness Dataset
and Empirical Study [31.062129406113588]
本稿では,5500の英文対を手動で注釈付けしたセマンティックテキスト関連性データセットSTR-2022を紹介する。
文対の関連性に関する人間の直感は信頼性が高く, 繰り返しアノテーションの相関は0.84である。
また, STR-2022は, 文章表現の自動手法や, 下流の様々なNLPタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-10-10T16:23:54Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - Comparative analysis of word embeddings in assessing semantic similarity
of complex sentences [8.873705500708196]
既存のベンチマークデータセットの文を解析し,文の複雑さに関する各種単語埋め込みの感度を解析する。
その結果, 文の複雑さの増大は, 埋め込みモデルの性能に重大な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:55:11Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Learning to Summarize Passages: Mining Passage-Summary Pairs from
Wikipedia Revision Histories [110.54963847339775]
ウィキペディアページのリビジョン履歴をマイニングすることで,パス・トゥ・サマリーデータセットを自動構築する手法を提案する。
特に、本手法では、ページに追加される本体の通路と導入文を同時にマイニングする。
構築されたデータセットは、100万以上のパス・サマー・ペアを含む。
論文 参考訳(メタデータ) (2020-04-06T12:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。