Fugu-MT 論文翻訳(概要): A Large-Scale Benchmark for Vietnamese Sentence Paraphrases

論文の概要: A Large-Scale Benchmark for Vietnamese Sentence Paraphrases

arxiv url: http://arxiv.org/abs/2502.07188v1
Date: Tue, 11 Feb 2025 02:30:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:47.965419
Title: A Large-Scale Benchmark for Vietnamese Sentence Paraphrases
Title（参考訳）: ベトナム語文パラフレーズの大規模ベンチマーク
Authors: Sang Quang Nguyen, Kiet Van Nguyen,
Abstract要約: 本稿では,ベトナム語の文パラフレージングのための高品質なデータセットであるViSPについて述べる。私たちの知る限りでは、ベトナム語のパラフレーズに関する大規模な研究はこれが初めてである。
参考スコア（独自算出の注目度）: 1.1842520528140819
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents ViSP, a high-quality Vietnamese dataset for sentence paraphrasing, consisting of 1.2M original-paraphrase pairs collected from various domains. The dataset was constructed using a hybrid approach that combines automatic paraphrase generation with manual evaluation to ensure high quality. We conducted experiments using methods such as back-translation, EDA, and baseline models like BART and T5, as well as large language models (LLMs), including GPT-4o, Gemini-1.5, Aya, Qwen-2.5, and Meta-Llama-3.1 variants. To the best of our knowledge, this is the first large-scale study on Vietnamese paraphrasing. We hope that our dataset and findings will serve as a valuable foundation for future research and applications in Vietnamese paraphrase tasks.
Abstract（参考訳）: 本稿では,ベトナム語の文パラフレージングのための高品質なデータセットであるViSPについて述べる。データセットは、自動パラフレーズ生成と手作業による評価を組み合わせて、高品質を保証するハイブリッドアプローチを用いて構築された。 GPT-4o, Gemini-1.5, Aya, Qwen-2.5, Meta-Llama-3.1 など,バックトランスレーション, EDA, BART, T5 などのベースラインモデル,および大規模言語モデル (LLM) を用いた実験を行った。私たちの知る限りでは、ベトナム語のパラフレーズに関する大規模な研究はこれが初めてである。ベトナムのパラフレーズタスクにおける将来の研究や応用のための貴重な基盤として、私たちのデータセットと発見が役立ちたいと思っています。

関連論文リスト

Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese [0.0]
Vintern-1Bはベトナム語タスクのための信頼性の高いマルチモーダル大言語モデル(MLLM)である。このモデルは、300万以上の画像検索と回答のペアからなる広範囲なデータセットに基づいて微調整されている。 Vintern-1Bは、様々なデバイス上のアプリケーションに簡単に適合できるほど小さい。
論文参考訳（メタデータ） (2024-08-22T15:15:51Z)
Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文参考訳（メタデータ） (2024-08-01T04:56:13Z)
Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文参考訳（メタデータ） (2024-03-25T14:46:51Z)
LyricSIM: A novel Dataset and Benchmark for Similarity Detection in Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文参考訳（メタデータ） (2023-06-02T07:48:20Z)
MTet: Multi-domain Translation for English and Vietnamese [10.126442202316825]
MTetは英語とベトナム語を翻訳するための最大の並列コーパスである。英語とベトナム語のための最初の事前訓練されたモデルEnViT5をリリースする。
論文参考訳（メタデータ） (2022-10-11T16:55:21Z)
EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation [63.88541605363555]
EAG(Extract and Generate)は,バイリンガルデータから大規模かつ高品質なマルチウェイアライメントコーパスを構築するための2段階のアプローチである。まず、異なる言語対から、非常に類似したソースやターゲット文を持つバイリンガルな例をペアリングして、候補に整列した例を抽出する。次に、よく訓練された生成モデルを用いて、候補から最終的な整列例を生成する。
論文参考訳（メタデータ） (2022-03-04T08:21:27Z)
PhoMT: A High-Quality and Large-Scale Benchmark Dataset for Vietnamese-English Machine Translation [6.950742601378329]
3.02M文対のベトナム語-英語並列データセットを高品質かつ大規模に導入する。これはベトナム語と英語の機械翻訳コーパスIWSLT15より2.9M大きい。自動・人両方の評価において、事前訓練されたシーケンス・ツー・シーケンス・デノナイズ・オートエンコーダmBARTを微調整することにより、最高の性能が得られる。
論文参考訳（メタデータ） (2021-10-23T11:42:01Z)
Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval [51.004601358498135]
Mr. TyDiは、11の類型的多様言語における単言語検索のためのベンチマークデータセットである。このリソースの目的は、非英語言語における高密度検索技術の研究を促進することである。
論文参考訳（メタデータ） (2021-08-19T16:53:43Z)
A Pilot Study of Text-to-SQL Semantic Parsing for Vietnamese [11.782566169354725]
ベトナムにおける大規模なテキスト・ソース・セマンティック・パーシング・データセットについて紹介する。ベトナム語の単語の自動区分けにより,両方のベースラインの構文解析結果が改善されることが判明した。 PhoBERT for Vietnamは、最近の最高の多言語言語モデルXLM-Rよりも高いパフォーマンスを実現している。
論文参考訳（メタデータ） (2020-10-05T09:54:51Z)
A Vietnamese Dataset for Evaluating Machine Reading Comprehension [2.7528170226206443]
ベトナム語として低リソース言語のための新しいデータセットであるUIT-ViQuADを提案する。このデータセットは、ウィキペディアから174のベトナム語記事の5,109節に基づいて、23,000人以上の人が生成した質問応答ペアで構成されている。 UIT-ViQuADの最初の実験モデルとして、英語と中国語の最先端MRC手法の実験を行った。
論文参考訳（メタデータ） (2020-09-30T15:06:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。