Fugu-MT 論文翻訳(概要): ARPA: Armenian Paraphrase Detection Corpus and Models

論文の概要: ARPA: Armenian Paraphrase Detection Corpus and Models

arxiv url: http://arxiv.org/abs/2009.12615v1
Date: Sat, 26 Sep 2020 14:56:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-14 08:43:34.333368
Title: ARPA: Armenian Paraphrase Detection Corpus and Models
Title（参考訳）: ARPA:アルメニア語のパラフレーズ検出コーパスとモデル
Authors: Arthur Malajyan, Karen Avetisyan, Tsolak Ghukasyan
Abstract要約: アルメニア語のためのセンテンシャルパラフレーズコーパスを生成するために半自動手法を用いる。最初の文の収集はアルメニア語から英語に2度翻訳され、結果として語彙的には遠いが意味的に類似した文が対になる。生成されたパラフレーズは手動でレビューされ、注釈付けされる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we employ a semi-automatic method based on back translation to generate a sentential paraphrase corpus for the Armenian language. The initial collection of sentences is translated from Armenian to English and back twice, resulting in pairs of lexically distant but semantically similar sentences. The generated paraphrases are then manually reviewed and annotated. Using the method train and test datasets are created, containing 2360 paraphrases in total. In addition, the datasets are used to train and evaluate BERTbased models for detecting paraphrase in Armenian, achieving results comparable to the state-of-the-art of other languages.
Abstract（参考訳）: 本研究では,アルメニア語のセンセーショナル・パラフレーズコーパスを生成するために,逆翻訳に基づく半自動手法を用いる。最初の文のコレクションはアルメニア語から英語に翻訳され、2回翻訳され、語彙的には遠いが意味的に類似した文のペアとなる。生成されたパラフレーズは手動でレビューされ、注釈付けされる。メソッドトレインとテストデータセットを使用して、合計2360のパラフレーズを含む。さらに、データセットはアルメニア語のパラフレーズを検出するためにBERTベースのモデルをトレーニングし、評価するために使用され、他の言語の最先端に匹敵する結果が得られる。

関連論文リスト

MahaParaphrase: A Marathi Paraphrase Detection Corpus and BERT-based Models [6.841396630034347]
インデックス言語は、その豊富な形態的および構文的バリエーション、多様なスクリプト、注釈付きデータの限られた可用性のために、自然言語処理において複雑である。本研究では,Malathiのための高品質なパラフレーズコーパスであるL3Cube-MahaParaphraseデータセットについて述べる。また、これらのデータセット上で、標準変換器ベースBERTモデルの結果を示す。
論文参考訳（メタデータ） (2025-08-24T16:48:58Z)
Dialectal and Low-Resource Machine Translation for Aromanian [44.99833362998488]
本稿では,英語,ルーマニア語,ルーマニア語をサポートするニューラルマシン翻訳システムの構築プロセスについて述べる。主な貢献は、79,000の文対からなるルーマニアとルーマニアの最も広範な平行コーパスの作成である。そこで本研究では,テキストマイニングと自動評価のための言語に依存しない文埋め込みモデルを含む補助ツール群を提案する。
論文参考訳（メタデータ） (2024-10-23T10:00:23Z)
LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文参考訳（メタデータ） (2024-06-03T15:30:36Z)
A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。ルーマニア語のNLIコーパスは公開されていない。 58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文参考訳（メタデータ） (2024-05-20T08:41:15Z)
Sõnajaht: Definition Embeddings and Semantic Search for Reverse Dictionary Creation [0.21485350418225246]
本稿では,最新の事前学習言語モデルと近接する近傍探索アルゴリズムを用いて,情報検索に基づく逆辞書システムを提案する。提案手法はエストニアの既存の語彙資源であるソナベブ(単語ウェブ)に適用され,セマンティック検索を利用した言語間逆辞書機能を導入して拡張・強化することを目的としている。
論文参考訳（メタデータ） (2024-04-30T10:21:14Z)
ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR Back-Translation [59.91139600152296]
ParaAMRは、抽象的な表現のバックトランスレーションによって生成される、大規模な構文的に多様なパラフレーズデータセットである。そこで本研究では,ParaAMRを用いて文の埋め込み学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という,3つのNLPタスクを改善することができることを示す。
論文参考訳（メタデータ） (2023-05-26T02:27:33Z)
Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文参考訳（メタデータ） (2022-11-11T20:21:38Z)
Training Effective Neural Sentence Encoders from Automatically Mined Paraphrases [0.0]
そこで本稿では,手動でラベル付けしたデータを用いずに,効果的な言語固有文エンコーダを訓練する手法を提案する。本研究の目的は,文の一致したバイリンガルテキストコーパスからパラフレーズペアのデータセットを自動構築することである。文エンコーダは1枚のグラフィックカードで1日以内で訓練でき、多種多様な文レベルのタスクで高い性能を達成できる。
論文参考訳（メタデータ） (2022-07-26T09:08:56Z)
Semantic Search as Extractive Paraphrase Span Detection [0.8137055256093007]
探索タスクをパラフレーズスパン検出としてフレーミングすることで意味探索の問題を解決した。フィンランドのパラフレーズペア10万個を手作業で抽出したトゥルクパラフレーズコーパスでは,このパラフレーズスパン検出モデルが2つの強力な検索ベースラインを上回っていることが判明した。本稿では,手動で注釈付けされたパラフレーズリソースが利用できない言語に適した,バックトランスレーションによる人工パラフレーズデータ作成手法を提案する。
論文参考訳（メタデータ） (2021-12-09T13:16:42Z)
Extracting and filtering paraphrases by bridging natural language inference and paraphrasing [0.0]
本研究では,NLIデータセットからパラフレージングデータセットを抽出し,既存のパラフレージングデータセットをクリーニングするための新しい手法を提案する。その結果,既存の2つのパラフレージングデータセットにおいて,抽出したパラフレージングデータセットの品質と驚くほど高いノイズレベルが示された。
論文参考訳（メタデータ） (2021-11-13T14:06:37Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文参考訳（メタデータ） (2020-10-12T17:02:50Z)
A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文参考訳（メタデータ） (2020-06-27T21:51:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。