論文の概要: ARPA: Armenian Paraphrase Detection Corpus and Models
- arxiv url: http://arxiv.org/abs/2009.12615v1
- Date: Sat, 26 Sep 2020 14:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 08:43:34.333368
- Title: ARPA: Armenian Paraphrase Detection Corpus and Models
- Title(参考訳): ARPA:アルメニア語のパラフレーズ検出コーパスとモデル
- Authors: Arthur Malajyan, Karen Avetisyan, Tsolak Ghukasyan
- Abstract要約: アルメニア語のためのセンテンシャルパラフレーズコーパスを生成するために半自動手法を用いる。
最初の文の収集はアルメニア語から英語に2度翻訳され、結果として語彙的には遠いが意味的に類似した文が対になる。
生成されたパラフレーズは手動でレビューされ、注釈付けされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we employ a semi-automatic method based on back translation to
generate a sentential paraphrase corpus for the Armenian language. The initial
collection of sentences is translated from Armenian to English and back twice,
resulting in pairs of lexically distant but semantically similar sentences. The
generated paraphrases are then manually reviewed and annotated. Using the
method train and test datasets are created, containing 2360 paraphrases in
total. In addition, the datasets are used to train and evaluate BERTbased
models for detecting paraphrase in Armenian, achieving results comparable to
the state-of-the-art of other languages.
- Abstract(参考訳): 本研究では,アルメニア語のセンセーショナル・パラフレーズコーパスを生成するために,逆翻訳に基づく半自動手法を用いる。
最初の文のコレクションはアルメニア語から英語に翻訳され、2回翻訳され、語彙的には遠いが意味的に類似した文のペアとなる。
生成されたパラフレーズは手動でレビューされ、注釈付けされる。
メソッドトレインとテストデータセットを使用して、合計2360のパラフレーズを含む。
さらに、データセットはアルメニア語のパラフレーズを検出するためにBERTベースのモデルをトレーニングし、評価するために使用され、他の言語の最先端に匹敵する結果が得られる。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Sõnajaht: Definition Embeddings and Semantic Search for Reverse Dictionary Creation [0.21485350418225246]
本稿では,最新の事前学習言語モデルと近接する近傍探索アルゴリズムを用いて,情報検索に基づく逆辞書システムを提案する。
提案手法はエストニアの既存の語彙資源であるソナベブ(単語ウェブ)に適用され,セマンティック検索を利用した言語間逆辞書機能を導入して拡張・強化することを目的としている。
論文 参考訳(メタデータ) (2024-04-30T10:21:14Z) - ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR
Back-Translation [59.91139600152296]
ParaAMRは、抽象的な表現のバックトランスレーションによって生成される、大規模な構文的に多様なパラフレーズデータセットである。
そこで本研究では,ParaAMRを用いて文の埋め込み学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という,3つのNLPタスクを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-26T02:27:33Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Training Effective Neural Sentence Encoders from Automatically Mined
Paraphrases [0.0]
そこで本稿では,手動でラベル付けしたデータを用いずに,効果的な言語固有文エンコーダを訓練する手法を提案する。
本研究の目的は,文の一致したバイリンガルテキストコーパスからパラフレーズペアのデータセットを自動構築することである。
文エンコーダは1枚のグラフィックカードで1日以内で訓練でき、多種多様な文レベルのタスクで高い性能を達成できる。
論文 参考訳(メタデータ) (2022-07-26T09:08:56Z) - Semantic Search as Extractive Paraphrase Span Detection [0.8137055256093007]
探索タスクをパラフレーズスパン検出としてフレーミングすることで意味探索の問題を解決した。
フィンランドのパラフレーズペア10万個を手作業で抽出したトゥルクパラフレーズコーパスでは,このパラフレーズスパン検出モデルが2つの強力な検索ベースラインを上回っていることが判明した。
本稿では,手動で注釈付けされたパラフレーズリソースが利用できない言語に適した,バックトランスレーションによる人工パラフレーズデータ作成手法を提案する。
論文 参考訳(メタデータ) (2021-12-09T13:16:42Z) - Extracting and filtering paraphrases by bridging natural language
inference and paraphrasing [0.0]
本研究では,NLIデータセットからパラフレージングデータセットを抽出し,既存のパラフレージングデータセットをクリーニングするための新しい手法を提案する。
その結果,既存の2つのパラフレージングデータセットにおいて,抽出したパラフレージングデータセットの品質と驚くほど高いノイズレベルが示された。
論文 参考訳(メタデータ) (2021-11-13T14:06:37Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。