Fugu-MT 論文翻訳(概要): CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization

論文の概要: CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization

arxiv url: http://arxiv.org/abs/2303.04092v1
Date: Tue, 7 Mar 2023 17:52:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-08 14:29:02.318466
Title: CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization
Title（参考訳）: crocosum: 言語間コードスイッチによる要約のためのベンチマークデータセット
Authors: Ruochen Zhang and Carsten Eickhoff
Abstract要約: 近年,大規模Webマイニングデータセットの利用可能化により,言語間要約(CLS)への関心が高まっている。我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
参考スコア（独自算出の注目度）: 13.922079283288033
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cross-lingual summarization (CLS) has attracted increasing interest in recent years due to the availability of large-scale web-mined datasets and the advancements of multilingual language models. However, given the rareness of naturally occurring CLS resources, the majority of datasets are forced to rely on translation which can contain overly literal artifacts. This restricts our ability to observe naturally occurring CLS pairs that capture organic diction, including instances of code-switching. This alteration between languages in mid-message is a common phenomenon in multilingual settings yet has been largely overlooked in cross-lingual contexts due to data scarcity. To address this gap, we introduce CroCoSum, a dataset of cross-lingual code-switched summarization of technology news. It consists of over 24,000 English source articles and 18,000 human-curated Chinese news summaries, with more than 92% of the summaries containing code-switched phrases. For reference, we evaluate the performance of existing approaches including pipeline, end-to-end, and zero-shot methods. We show that leveraging existing resources as a pretraining step does not improve performance on CroCoSum, indicating the limited generalizability of existing resources. Finally, we discuss the challenges of evaluating cross-lingual summarizers on code-switched generation through qualitative error analyses. Our collection and code can be accessed at https://github.com/RosenZhang/CroCoSum.
Abstract（参考訳）: 言語間要約(CLS)は、大規模Webマイニングデータセットの可用性と多言語言語モデルの進歩により、近年、関心が高まりつつある。しかし、自然に発生するCLS資源の希少さを考えると、ほとんどのデータセットは過度に人工的なアーティファクトを含むことができる翻訳に頼らざるを得ない。これにより、コードスイッチングのインスタンスを含む有機的辞書をキャプチャする自然発生のCLSペアを観測する能力を制限することができます。メッセージ中の言語間のこの変更は、多言語環境では一般的な現象であるが、データ不足のため、言語間のコンテキストでは見過ごされている。このギャップに対処するために,技術ニュースのクロスリンガルコード切り換え要約のデータセットであるcrocosumを紹介する。 24,000以上の英語ソース記事と18,000の中国語ニュース要約で構成されており、92%以上の要約にはコード切り換えされたフレーズが含まれている。参考までに、パイプライン、エンドツーエンド、ゼロショットメソッドを含む既存のアプローチのパフォーマンスを評価する。既存の資源を事前学習段階として活用しても,crocosumの性能は向上しないことを示す。最後に,定性的誤り解析によるコードスイッチト生成における言語間要約の課題について論じる。私たちのコレクションとコードはhttps://github.com/RosenZhang/CroCoSumでアクセスできます。

関連論文リスト

Understanding LLMs' Cross-Lingual Context Retrieval: How Good It Is And Where It Comes From [61.63091726904068]
12言語にわたる40以上の大言語モデル(LLM)の言語間コンテキスト検索能力を評価する。いくつかの小さな訓練後のオープンLLMは、強い言語間コンテキスト検索能力を示している。また, 大規模プレトレーニングでは, xMRCの性能が向上することが示唆された。
論文参考訳（メタデータ） (2025-04-15T06:35:27Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing [6.074150063191985]
Cross-Lingual Back-Parsing(クロスリンガル・バック・パーシング)は、セマンティック・パーシングのためのクロスリンガル・トランスファーを強化するために設計された新しいデータ拡張手法である。提案手法は,ゼロリソース設定に挑戦する上で,言語間データ拡張を効果的に行う。
論文参考訳（メタデータ） (2024-10-01T08:53:38Z)
Embracing Language Inclusivity and Diversity in CLIP through Continual Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文参考訳（メタデータ） (2024-01-30T17:14:05Z)
Multilingual LLMs are Better Cross-lingual In-context Learners with Alignment [24.742581572364124]
インコンテキスト学習(ICL)は、大規模言語モデルが勾配更新なしでいくつかのラベル付きサンプルに条件付きテストラベルを推測できるようになり、展開される。言語間テキスト分類のためのICLの詳細な分析を行う。我々は新しいプロンプト・コンストラクション・ストラテジ--クロスランガルなインコンテキスト・ソース・ターゲットアライメント(X-InSTA)を提案する。
論文参考訳（メタデータ） (2023-05-10T07:24:36Z)
Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文参考訳（メタデータ） (2022-12-14T13:41:49Z)
A Variational Hierarchical Model for Neural Cross-Lingual Summarization [85.44969140204026]
言語間の要約(英: cross-lingual summarization)とは、ある言語の文書を別の言語の要約に変換することである。 CLSに関する既存の研究は主にパイプライン手法の利用やエンドツーエンドモデルの共同トレーニングに重点を置いている。条件付き変分自動エンコーダに基づくCLSタスクの階層モデルを提案する。
論文参考訳（メタデータ） (2022-03-08T02:46:11Z)
Improving Low-resource Reading Comprehension via Cross-lingual Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文参考訳（メタデータ） (2021-07-11T09:35:16Z)
Cross-Lingual Abstractive Summarization with Limited Parallel Resources [22.680714603332355]
低リソース環境下でのクロスリンガル抽象要約(MCLAS)のための新しいマルチタスクフレームワークを提案する。 1つの統一デコーダを用いてモノリンガルとクロスリンガルの要約の逐次連結を生成することで、MCLASはモノリンガルの要約タスクをクロスリンガルの要約タスクの前提条件とする。我々のモデルは、低リソースとフルデータセットの両方のシナリオにおいて、3つのベースラインモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2021-05-28T07:51:42Z)
Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文参考訳（メタデータ） (2020-10-18T00:21:53Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。