論文の概要: Finnish Paraphrase Corpus
- arxiv url: http://arxiv.org/abs/2103.13103v1
- Date: Wed, 24 Mar 2021 11:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 17:24:48.420703
- Title: Finnish Paraphrase Corpus
- Title(参考訳): フィンランド語paraphraseコーパス
- Authors: Jenna Kanerva, Filip Ginter, Li-Hsin Chang, Iiro Rastas, Valtteri
Skantsi, Jemina Kilpel\"ainen, Hanna-Mari Kupari, Jenna Saarni, Maija
Sev\'on, Otto Tarkka
- Abstract要約: フィンランド語で53,572のパラフレーズ対を含む完全手書きのパラフレーズコーパスを初めて導入した。
私たちのコーパス98%のすべてのパラフレーズペアのうち、少なくとも与えられた文脈でパラフレーズであると手動で分類されます。
- 参考スコア(独自算出の注目度): 0.6756523600620709
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we introduce the first fully manually annotated paraphrase
corpus for Finnish containing 53,572 paraphrase pairs harvested from
alternative subtitles and news headings. Out of all paraphrase pairs in our
corpus 98% are manually classified to be paraphrases at least in their given
context, if not in all contexts. Additionally, we establish a manual candidate
selection method and demonstrate its feasibility in high quality paraphrase
selection in terms of both cost and quality.
- Abstract(参考訳): 本稿では,代替字幕とニュース見出しから抽出した53,572のパラフレーズ対を含むフィンランド語用完全手書きのパラフレーズコーパスについて紹介する。
コーパス内のすべてのパラフレーズペアのうち98%は、少なくともそれぞれの文脈において、少なくとも全ての文脈において、手動でパラフレーズに分類される。
さらに,手作業による候補選択手法を確立し,コストと品質の両面で高品質なパラフレーズ選択の実現可能性を示す。
関連論文リスト
- Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - FRACAS: A FRench Annotated Corpus of Attribution relations in newS [0.0]
引用抽出と情報源帰属のために,フランス語で1676年のニュースワイヤテキストを手作業で注釈付けしたコーパスを提示する。
まず,データ選択時のコーパスの構成と選択について述べる。
次に、手動ラベリングに取り組んでいる8つのアノテータ間のアノテータ間合意について詳述する。
論文 参考訳(メタデータ) (2023-09-19T13:19:54Z) - Lexicon and Rule-based Word Lemmatization Approach for the Somali
Language [0.0]
レマタイズ(Lemmatization)は、単語の形態的派生を根本形に変化させることによってテキストを正規化する技法である。
本稿では,ソマリ語におけるテキスト・レマティゼーションの先駆者となる。
1247の根語の初期語彙と7173の派生的関連用語に辞書に存在しない単語を補綴する規則が組み込まれている。
論文 参考訳(メタデータ) (2023-08-03T14:31:57Z) - Unsupervised extraction of local and global keywords from a single text [0.0]
テキストからキーワードを抽出する非教師付きコーパス非依存手法を提案する。
それは、単語の空間分布と、単語のランダムな置換に対するこの分布の応答に基づいている。
論文 参考訳(メタデータ) (2023-07-26T07:36:25Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Semantic Search as Extractive Paraphrase Span Detection [0.8137055256093007]
探索タスクをパラフレーズスパン検出としてフレーミングすることで意味探索の問題を解決した。
フィンランドのパラフレーズペア10万個を手作業で抽出したトゥルクパラフレーズコーパスでは,このパラフレーズスパン検出モデルが2つの強力な検索ベースラインを上回っていることが判明した。
本稿では,手動で注釈付けされたパラフレーズリソースが利用できない言語に適した,バックトランスレーションによる人工パラフレーズデータ作成手法を提案する。
論文 参考訳(メタデータ) (2021-12-09T13:16:42Z) - Language models in word sense disambiguation for Polish [0.0]
ニューラル言語モデルを用いて、あいまいな単語と同じような単語を予測する。
これらの単語に基づいて,単語知覚の分割を異なる方法で予測する。
論文 参考訳(メタデータ) (2021-11-27T20:47:53Z) - Phrase Retrieval Learns Passage Retrieval, Too [77.57208968326422]
文節検索が,文節や文書を含む粗いレベルの検索の基盤となるかを検討する。
句検索システムでは,句検索の精度が向上し,句検索の精度が向上していることを示す。
また,句のフィルタリングやベクトル量子化により,インデックスのサイズを4~10倍に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-16T17:42:45Z) - Dynamic Context Selection for Document-level Neural Machine Translation
via Reinforcement Learning [55.18886832219127]
文書レベルの翻訳における動的コンテキストの選択に有効な手法を提案する。
動的文脈文の選択と活用を促進するために,新しい報酬を提案する。
実験により,提案手法は異なるソース文に対して適応的な文脈文を選択することができることが示された。
論文 参考訳(メタデータ) (2020-10-09T01:05:32Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。