論文の概要: Revisiting Cross-Lingual Summarization: A Corpus-based Study and A New
Benchmark with Improved Annotation
- arxiv url: http://arxiv.org/abs/2307.04018v1
- Date: Sat, 8 Jul 2023 17:20:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 15:58:49.492167
- Title: Revisiting Cross-Lingual Summarization: A Corpus-based Study and A New
Benchmark with Improved Annotation
- Title(参考訳): 言語間の要約を再考する:コーパスに基づく研究とアノテーションの改良による新しいベンチマーク
- Authors: Yulong Chen, Huajian Zhang, Yijie Zhou, Xuefeng Bai, Yueguan Wang,
Ming Zhong, Jianhao Yan, Yafu Li, Judy Li, Michael Zhu, Yue Zhang
- Abstract要約: ConvSumXは言語間会話要約ベンチマークである。
本稿では,ソース入力コンテキストを明示的に考慮した新しいアノテーションスキーマを提案する。
ソース入力テキストと要約の両方が、言語間要約のモデル化に不可欠であることを示す。
- 参考スコア(独自算出の注目度): 19.805006400248526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing cross-lingual summarization (CLS) work constructs CLS corpora
by simply and directly translating pre-annotated summaries from one language to
another, which can contain errors from both summarization and translation
processes. To address this issue, we propose ConvSumX, a cross-lingual
conversation summarization benchmark, through a new annotation schema that
explicitly considers source input context. ConvSumX consists of 2 sub-tasks
under different real-world scenarios, with each covering 3 language directions.
We conduct thorough analysis on ConvSumX and 3 widely-used manually annotated
CLS corpora and empirically find that ConvSumX is more faithful towards input
text. Additionally, based on the same intuition, we propose a 2-Step method,
which takes both conversation and summary as input to simulate human annotation
process. Experimental results show that 2-Step method surpasses strong
baselines on ConvSumX under both automatic and human evaluation. Analysis shows
that both source input text and summary are crucial for modeling cross-lingual
summaries.
- Abstract(参考訳): 既存の言語間要約(CLS)の作業の多くは、注釈付き要約を1つの言語から別の言語へシンプルかつ直接翻訳することで、CLSコーパスを構築し、要約と翻訳プロセスの両方のエラーを含むことができる。
この問題に対処するため,我々は,ソース入力コンテキストを明示的に考慮した新しいアノテーションスキーマを用いて,言語間会話要約ベンチマークであるconvsumxを提案する。
ConvSumXは2つのサブタスクで構成され、それぞれが3つの言語方向をカバーする。
我々はConvSumXと3つの広く使われている手書きCLSコーパスを徹底的に分析し、ConvSumXが入力テキストに対してより忠実であることを示す。
さらに,同じ直観に基づいて,対話と要約の両方を入力として人間のアノテーションプロセスをシミュレートする2段階の手法を提案する。
実験の結果, 2段階法がconvsumxの強力なベースラインを, 自動評価と人的評価の両方で上回った。
解析により、ソース入力テキストと要約の両方が言語間要約をモデル化するのに重要であることが示された。
関連論文リスト
- To token or not to token: A Comparative Study of Text Representations
for Cross-Lingual Transfer [23.777874316083984]
ゼロショットと少数ショットの両方の評価を重み付けして表現できるスコアリング言語クオシアン計量を提案する。
解析の結果,言語が密接に関連し,視覚的に類似したスクリプトを共有する場合,画像ベースモデルは言語間移動に優れることがわかった。
単語関係が重要な役割を果たす依存性解析タスクでは、キャラクタレベルに焦点を当てたモデルが他よりも優れています。
論文 参考訳(メタデータ) (2023-10-12T06:59:10Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - SimCSum: Joint Learning of Simplification and Cross-lingual
Summarization for Cross-lingual Science Journalism [8.187718963808484]
言語間科学ジャーナリズムは、専門家でない聴衆のために、ソース言語とは異なる科学記事の一般的な科学物語を生成する。
我々は,2つのハイレベルなNLPタスク,単純化と言語間要約を併用して,言語間要約生成を改善する。
SimCSumは、2つの非合成言語間科学データセットに対する最先端技術よりも統計的に有意な改善を示している。
論文 参考訳(メタデータ) (2023-04-04T08:24:22Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。
We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文 参考訳(メタデータ) (2022-04-28T08:35:26Z) - A Variational Hierarchical Model for Neural Cross-Lingual Summarization [85.44969140204026]
言語間の要約(英: cross-lingual summarization)とは、ある言語の文書を別の言語の要約に変換することである。
CLSに関する既存の研究は主にパイプライン手法の利用やエンドツーエンドモデルの共同トレーニングに重点を置いている。
条件付き変分自動エンコーダに基づくCLSタスクの階層モデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:46:11Z) - ClueGraphSum: Let Key Clues Guide the Cross-Lingual Abstractive
Summarization [5.873920727236548]
言語間の要約は、異なる言語の記事に対して1つの言語で要約を生成するタスクである。
CLSに関するこれまでの研究は主にパイプライン方式を採用し、翻訳された並列データを使ってエンドツーエンドモデルを訓練していた。
本稿では,言語間要約の品質向上を図るために,手掛かり付き言語間抽象要約手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T18:01:11Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。