論文の概要: BanglaParaphrase: A High-Quality Bangla Paraphrase Dataset
- arxiv url: http://arxiv.org/abs/2210.05109v1
- Date: Tue, 11 Oct 2022 02:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 15:38:15.489468
- Title: BanglaParaphrase: A High-Quality Bangla Paraphrase Dataset
- Title(参考訳): BanglaParaphrase: 高品質なBanglaパラフレーズデータセット
- Authors: Ajwad Akil, Najrin Sultana, Abhik Bhattacharjee and Rifat Shahriyar
- Abstract要約: そこで我々は,新しいフィルタパイプラインによって構築された高品質なBangla ParaphraseデータセットであるBanglaParaphraseを提案する。
我々は,BanglaParaphraseの導入を通じて,NLPドメインにおけるBangla言語の低リソース状態を軽減するための一歩を踏み出したい。
- 参考スコア(独自算出の注目度): 3.922582192616519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present BanglaParaphrase, a high-quality synthetic Bangla
Paraphrase dataset curated by a novel filtering pipeline. We aim to take a step
towards alleviating the low resource status of the Bangla language in the NLP
domain through the introduction of BanglaParaphrase, which ensures quality by
preserving both semantics and diversity, making it particularly useful to
enhance other Bangla datasets. We show a detailed comparative analysis between
our dataset and models trained on it with other existing works to establish the
viability of our synthetic paraphrase data generation pipeline. We are making
the dataset and models publicly available at
https://github.com/csebuetnlp/banglaparaphrase to further the state of Bangla
NLP.
- Abstract(参考訳): 本稿では,新しいフィルタパイプラインによって計算された高品質なBangla ParaphraseデータセットであるBanglaParaphraseを紹介する。
我々は、nlpドメインにおけるバングラ言語の低資源状態の緩和に向けて、意味論と多様性の両方を保存して品質を保証するバングラパラフローゼを導入することで、バングラの他のデータセットの拡張に特に有用である。
合成パラフレーズデータ生成パイプラインの実現可能性を確立するため、既存の研究とトレーニングしたデータセットとモデルとの詳細な比較分析を行った。
データセットとモデルをhttps://github.com/csebuetnlp/banglaparaphraseで公開しています。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR
Back-Translation [59.91139600152296]
ParaAMRは、抽象的な表現のバックトランスレーションによって生成される、大規模な構文的に多様なパラフレーズデータセットである。
そこで本研究では,ParaAMRを用いて文の埋め込み学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という,3つのNLPタスクを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-26T02:27:33Z) - On Evaluation of Bangla Word Analogies [0.8658596218544772]
本稿では,Bangla単語の埋め込み品質を評価するための高品質なデータセットを提案する。
世界で7番目に普及した言語であるにもかかわらず、Banglaは低リソース言語であり、人気のあるNLPモデルはうまく機能しない。
論文 参考訳(メタデータ) (2023-04-10T14:27:35Z) - Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset [0.5893124686141781]
Banglaのようなリソース制約のある言語は、標準データセットの欠如が主な原因で、焦点が当てられていない。
Flickr8kで広く使われているデータセットのBAN-Capに続き、資格アノテータが提供した画像のBanglaキャプションを収集する。
テキスト増強の効果について検討し,適応的注意に基づくモデルと文脈的単語置換(CWR)を用いたテキスト増強が,Bangla画像キャプションの最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-28T15:39:09Z) - BanglaNLG: Benchmarks and Resources for Evaluating Low-Resource Natural
Language Generation in Bangla [21.47743471497797]
本研究はバングラの自然言語生成モデルを評価するためのベンチマークを示す。
BanglaNLGベンチマークでは,3つの条件付きテキスト生成タスクを集約する。
クリーンコーパス27.5GBのBanglaデータを用いて、Banglaのシーケンス・ツー・シーケンス・トランスフォーマーモデルであるBanglaT5を事前訓練する。
BanglaT5はすべてのタスクで最先端のパフォーマンスを実現し、mT5(ベース)を最大5.4%上回っている。
論文 参考訳(メタデータ) (2022-05-23T06:54:56Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z) - End-to-End Natural Language Understanding Pipeline for Bangla
Conversational Agents [0.43012765978447565]
本稿では,バングラ語とバングラ語でコミュニケーション可能なビジネスアシスタントを構築するための新しい手法を提案する。
Rasa Open Source Framework、fastText組み込み、Polyglot組み込み、Fraskなどのシステムをビルディングブロックとして使用しています。
本稿では,意図分類と実体抽出のためのパイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-12T16:09:22Z) - A Review of Bangla Natural Language Processing Tasks and the Utility of
Transformer Models [2.5768647103950357]
研究コミュニティで利用可能なBangla NLPタスク、リソース、ツールについてレビューする。
我々は、現在最先端のアルゴリズムを用いて、9つのNLPタスクのために、さまざまなプラットフォームから収集されたデータセットをベンチマークした。
個人と統合されたデータセットを用いてその結果を報告し、今後の研究のためのデータを提供する。
論文 参考訳(メタデータ) (2021-07-08T13:49:46Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。