論文の概要: Revisiting non-English Text Simplification: A Unified Multilingual
Benchmark
- arxiv url: http://arxiv.org/abs/2305.15678v1
- Date: Thu, 25 May 2023 03:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:42:45.649491
- Title: Revisiting non-English Text Simplification: A Unified Multilingual
Benchmark
- Title(参考訳): 非英語テキストの単純化を再考する:統一多言語ベンチマーク
- Authors: Michael J. Ryan, Tarek Naous, Wei Xu
- Abstract要約: 本稿では,12言語に170万以上の複雑な文対を含む27のリソースの集合であるMultiSimベンチマークを紹介する。
事前学習した多言語言語モデルを用いたMultiSimを用いた実験により,非英語環境での多言語学習によるエキサイティングな性能向上が示された。
- 参考スコア(独自算出の注目度): 14.891068432456262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in high-quality, large-scale English resources have
pushed the frontier of English Automatic Text Simplification (ATS) research.
However, less work has been done on multilingual text simplification due to the
lack of a diverse evaluation benchmark that covers complex-simple sentence
pairs in many languages. This paper introduces the MultiSim benchmark, a
collection of 27 resources in 12 distinct languages containing over 1.7 million
complex-simple sentence pairs. This benchmark will encourage research in
developing more effective multilingual text simplification models and
evaluation metrics. Our experiments using MultiSim with pre-trained
multilingual language models reveal exciting performance improvements from
multilingual training in non-English settings. We observe strong performance
from Russian in zero-shot cross-lingual transfer to low-resource languages. We
further show that few-shot prompting with BLOOM-176b achieves comparable
quality to reference simplifications outperforming fine-tuned models in most
languages. We validate these findings through human evaluation.
- Abstract(参考訳): 高品質で大規模な英語リソースの進歩は、英語自動テキスト単純化(ATS)研究のフロンティアを押し進めている。
しかし、多くの言語で複雑な文対をカバーする多言語評価ベンチマークが欠如しているため、多言語テキストの単純化に関する作業は少ない。
本稿では,12言語に170万以上の複合文対を含む27のリソースの集合であるMultiSimベンチマークを紹介する。
このベンチマークは、より効果的な多言語テキスト単純化モデルと評価メトリクスを開発する研究を促進する。
事前学習した多言語言語モデルを用いたMultiSimを用いた実験により,非英語環境での多言語学習によるエキサイティングな性能向上が示された。
低リソース言語へのゼロショット言語間転送において、ロシア語から強いパフォーマンスを観察する。
さらに,BLOOM-176b による少数ショットプロンプトは,ほとんどの言語で微調整モデルよりも優れた参照単純化に匹敵する品質が得られることを示す。
これらの知見を人的評価により検証する。
関連論文リスト
- Synergistic Approach for Simultaneous Optimization of Monolingual, Cross-lingual, and Multilingual Information Retrieval [5.446052898856584]
本稿では,モノリンガル,クロスリンガル,マルチリンガル設定におけるゼロショット検索性能を改善するためのハイブリッドバッチ学習手法を提案する。
このアプローチは、データセットサイズに基づいてサンプリングされたモノリンガルとクロスリンガルの問合せ対のバッチを混合したマルチリンガル言語モデルを微調整する。
論文 参考訳(メタデータ) (2024-08-20T04:30:26Z) - Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings [22.71166607645311]
本稿では,最先端のバイリンガルテキスト埋め込みモデルについて紹介する。
これらのモデルは、最大8192トークンで長いテキスト入力を処理することができる。
STSタスクのモデル性能を大幅に改善しました。
我々は、ドイツ語とスペイン語の埋め込みモデルのベンチマークを含むように、Massive Text Embedding Benchmarkを拡張した。
論文 参考訳(メタデータ) (2024-02-26T20:53:12Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection
Benchmark [10.92793962395538]
MultiTuDEは、多言語マシン生成テキスト検出のための新しいベンチマークデータセットである。
11の言語で74,081の認証テキストと機械生成テキストで構成されている。
ゼロショット(統計とブラックボックス)と微調整検出器の性能を比較した。
論文 参考訳(メタデータ) (2023-10-20T15:57:17Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multilingual Relation Classification via Efficient and Effective
Prompting [9.119073318043952]
本稿では,プロンプトベース多言語関係分類(RC)に関する最初の研究について述べる。
本稿では,関係3重項からプロンプトを合成し,クラスラベルの最小翻訳のみを伴う効率的かつ効率的な手法を提案する。
完全教師付き、少数ショット、ゼロショットのシナリオでその性能を評価し、14言語でその有効性を分析した。
論文 参考訳(メタデータ) (2022-10-25T08:40:23Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.80733419450225]
本稿では,言語間移動学習の現状を解析する。
XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
論文 参考訳(メタデータ) (2021-04-15T12:26:12Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。