論文の概要: With Good MT There is No Need For End-to-End: A Case for Translate-then-Summarize Cross-lingual Summarization
- arxiv url: http://arxiv.org/abs/2409.00414v1
- Date: Sat, 31 Aug 2024 10:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 14:49:38.631354
- Title: With Good MT There is No Need For End-to-End: A Case for Translate-then-Summarize Cross-lingual Summarization
- Title(参考訳): Good MT では end-to-End が不要である: 翻訳-then-Summarize 言語間要約の1例
- Authors: Daniel Varab, Christian Hardmeier,
- Abstract要約: 単純なテキストトランスレート・サマライズパイプライン設計は、大量の並列データにアクセス可能なエンドツーエンドシステムでも一貫して性能が向上することを示す。
近年の出版動向とは対照的に,モノリンガル要約と翻訳タスクの個々の進歩は,エンド・ツー・エンドシステムよりも優れた性能をもたらすことが示唆されている。
- 参考スコア(独自算出の注目度): 6.560705216993781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has suggested that end-to-end system designs for cross-lingual summarization are competitive solutions that perform on par or even better than traditional pipelined designs. A closer look at the evidence reveals that this intuition is based on the results of only a handful of languages or using underpowered pipeline baselines. In this work, we compare these two paradigms for cross-lingual summarization on 39 source languages into English and show that a simple \textit{translate-then-summarize} pipeline design consistently outperforms even an end-to-end system with access to enormous amounts of parallel data. For languages where our pipeline model does not perform well, we show that system performance is highly correlated with publicly distributed BLEU scores, allowing practitioners to establish the feasibility of a language pair a priori. Contrary to recent publication trends, our result suggests that the combination of individual progress of monolingual summarization and translation tasks offers better performance than an end-to-end system, suggesting that end-to-end designs should be considered with care.
- Abstract(参考訳): 最近の研究は、言語間の要約のためのエンドツーエンドのシステム設計が、従来のパイプライン設計よりも同等あるいはそれ以上に優れた競合ソリューションであることを示唆している。
証拠を詳しく見てみると、この直観はほんのわずかの言語の結果に基づいており、また、非力のパイプラインベースラインを使用していることが分かる。
本研究では、39のソース言語上での言語間要約のパラダイムを英語に比較し、単純な \textit{translate-then-summarize} パイプラインの設計が、膨大な並列データにアクセス可能なエンドツーエンドシステムでさえ一貫して優れていることを示す。
パイプラインモデルがうまく機能しない言語では、システム性能が公に分散したBLEUスコアと高い相関関係があることを示し、実践者が言語ペアを優先的に実現できるようにする。
近年の出版動向とは対照的に,モノリンガル要約タスクと翻訳タスクの個別の進歩は,エンドツーエンドシステムよりも優れた性能をもたらすことが示唆され,エンド・ツー・エンドの設計は慎重に検討されるべきである。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - SumTra: A Differentiable Pipeline for Few-Shot Cross-Lingual Summarization [8.971234046933349]
言語間要約(XLS)は、入力文書とは異なる言語で要約を生成する。
本稿では,要約と翻訳のパイプラインを再検討し,要約と翻訳のタスクをシーケンスで実行することを提案する。
このアプローチは、モノリンガル要約と翻訳のための多くの公開リソースを再利用し、非常に競争力のあるゼロショット性能を得る。
論文 参考訳(メタデータ) (2024-03-20T02:04:42Z) - Document-Level Language Models for Machine Translation [37.106125892770315]
文書レベルのモノリンガルデータを利用した文脈対応翻訳システムを構築した。
モデル組み合わせの最近の進歩を活用することで、既存のアプローチを改善します。
ほとんどのシナリオでは、バックトランスレーションは、翻訳システムを再トレーニングするコストを犠牲にして、よりよい結果をもたらす。
論文 参考訳(メタデータ) (2023-10-18T20:10:07Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。