論文の概要: ARPA: Armenian Paraphrase Detection Corpus and Models
- arxiv url: http://arxiv.org/abs/2009.12615v1
- Date: Sat, 26 Sep 2020 14:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 08:43:34.333368
- Title: ARPA: Armenian Paraphrase Detection Corpus and Models
- Title(参考訳): ARPA:アルメニア語のパラフレーズ検出コーパスとモデル
- Authors: Arthur Malajyan, Karen Avetisyan, Tsolak Ghukasyan
- Abstract要約: アルメニア語のためのセンテンシャルパラフレーズコーパスを生成するために半自動手法を用いる。
最初の文の収集はアルメニア語から英語に2度翻訳され、結果として語彙的には遠いが意味的に類似した文が対になる。
生成されたパラフレーズは手動でレビューされ、注釈付けされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we employ a semi-automatic method based on back translation to
generate a sentential paraphrase corpus for the Armenian language. The initial
collection of sentences is translated from Armenian to English and back twice,
resulting in pairs of lexically distant but semantically similar sentences. The
generated paraphrases are then manually reviewed and annotated. Using the
method train and test datasets are created, containing 2360 paraphrases in
total. In addition, the datasets are used to train and evaluate BERTbased
models for detecting paraphrase in Armenian, achieving results comparable to
the state-of-the-art of other languages.
- Abstract(参考訳): 本研究では,アルメニア語のセンセーショナル・パラフレーズコーパスを生成するために,逆翻訳に基づく半自動手法を用いる。
最初の文のコレクションはアルメニア語から英語に翻訳され、2回翻訳され、語彙的には遠いが意味的に類似した文のペアとなる。
生成されたパラフレーズは手動でレビューされ、注釈付けされる。
メソッドトレインとテストデータセットを使用して、合計2360のパラフレーズを含む。
さらに、データセットはアルメニア語のパラフレーズを検出するためにBERTベースのモデルをトレーニングし、評価するために使用され、他の言語の最先端に匹敵する結果が得られる。
関連論文リスト
- ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR
Back-Translation [59.91139600152296]
ParaAMRは、抽象的な表現のバックトランスレーションによって生成される、大規模な構文的に多様なパラフレーズデータセットである。
そこで本研究では,ParaAMRを用いて文の埋め込み学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という,3つのNLPタスクを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-26T02:27:33Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Training Effective Neural Sentence Encoders from Automatically Mined
Paraphrases [0.0]
そこで本稿では,手動でラベル付けしたデータを用いずに,効果的な言語固有文エンコーダを訓練する手法を提案する。
本研究の目的は,文の一致したバイリンガルテキストコーパスからパラフレーズペアのデータセットを自動構築することである。
文エンコーダは1枚のグラフィックカードで1日以内で訓練でき、多種多様な文レベルのタスクで高い性能を達成できる。
論文 参考訳(メタデータ) (2022-07-26T09:08:56Z) - Semantic Search as Extractive Paraphrase Span Detection [0.8137055256093007]
探索タスクをパラフレーズスパン検出としてフレーミングすることで意味探索の問題を解決した。
フィンランドのパラフレーズペア10万個を手作業で抽出したトゥルクパラフレーズコーパスでは,このパラフレーズスパン検出モデルが2つの強力な検索ベースラインを上回っていることが判明した。
本稿では,手動で注釈付けされたパラフレーズリソースが利用できない言語に適した,バックトランスレーションによる人工パラフレーズデータ作成手法を提案する。
論文 参考訳(メタデータ) (2021-12-09T13:16:42Z) - Extracting and filtering paraphrases by bridging natural language
inference and paraphrasing [0.0]
本研究では,NLIデータセットからパラフレージングデータセットを抽出し,既存のパラフレージングデータセットをクリーニングするための新しい手法を提案する。
その結果,既存の2つのパラフレージングデータセットにおいて,抽出したパラフレージングデータセットの品質と驚くほど高いノイズレベルが示された。
論文 参考訳(メタデータ) (2021-11-13T14:06:37Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。