論文の概要: Leveraging Entailment Judgements in Cross-Lingual Summarisation
- arxiv url: http://arxiv.org/abs/2408.00675v1
- Date: Thu, 1 Aug 2024 16:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 20:06:59.352486
- Title: Leveraging Entailment Judgements in Cross-Lingual Summarisation
- Title(参考訳): 言語間要約におけるレバレッジ・エンタテインメントの判断
- Authors: Huajian Zhang, Laura Perez-Beltrachini,
- Abstract要約: クロスLingual Summarisation (CLS)データセットは、参照要約が対応する文書に不信であるような文書-要約ペアを含む傾向にある。
この低いデータ品質はモデル学習を誤解させ、評価結果を曖昧にする。
我々は,参照の忠実さとモデル生成要約を評価するために,既成の言語間自然言語推論(X-NLI)を提案する。
- 参考スコア(独自算出の注目度): 3.771795120498178
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthetically created Cross-Lingual Summarisation (CLS) datasets are prone to include document-summary pairs where the reference summary is unfaithful to the corresponding document as it contains content not supported by the document (i.e., hallucinated content). This low data quality misleads model learning and obscures evaluation results. Automatic ways to assess hallucinations and improve training have been proposed for monolingual summarisation, predominantly in English. For CLS, we propose to use off-the-shelf cross-lingual Natural Language Inference (X-NLI) to evaluate faithfulness of reference and model generated summaries. Then, we study training approaches that are aware of faithfulness issues in the training data and propose an approach that uses unlikelihood loss to teach a model about unfaithful summary sequences. Our results show that it is possible to train CLS models that yield more faithful summaries while maintaining comparable or better informativess.
- Abstract(参考訳): 合成生成された言語間要約(CLS)データセットは、文書がサポートしていないコンテンツ(すなわち、幻覚的コンテンツ)を含むため、参照要約が対応する文書に不信である文書-要約ペアを含む傾向がある。
この低いデータ品質はモデル学習を誤解させ、評価結果を曖昧にする。
幻覚を自動評価し、トレーニングを改善する方法は、主に英語でモノリンガル要約のために提案されている。
CLSでは,既成の言語間自然言語推論(X-NLI)を用いて参照とモデル生成要約の忠実さを評価することを提案する。
そこで,本研究では,トレーニングデータにおける忠実度問題を認識したトレーニングアプローチについて検討し,不誠実な要約列に関するモデルを教えるために,不規則な損失を用いたアプローチを提案する。
以上の結果から,より忠実な要約を得られるCLSモデルを,同等あるいはより良い情報量を維持しつつ訓練することが可能であることが示唆された。
関連論文リスト
- ConVerSum: A Contrastive Learning-based Approach for Data-Scarce Solution of Cross-Lingual Summarization Beyond Direct Equivalents [4.029675201787349]
言語間の要約は自然言語処理の洗練された分野である。
高品質なCLSデータがない場合、CLSには実現可能な解決策がない。
コントラスト学習のパワーを活かしたCLSのための新しいデータ効率のアプローチであるConVerSumを提案する。
論文 参考訳(メタデータ) (2024-08-17T19:03:53Z) - Investigating a Benchmark for Training-set free Evaluation of Linguistic Capabilities in Machine Reading Comprehension [12.09297288867446]
合成課題集合上でのトレーニングセット自由設定において最適化モデルを評価するためのフレームワークについて検討する。
生成手法の単純さにもかかわらず、データは自然性や語彙の多様性に関してクラウドソースのデータセットと競合する。
我々は、さらに実験を行い、最先端の言語モデルに基づくMRCシステムが、挑戦セットを正しく成功させるために学習できることを示します。
論文 参考訳(メタデータ) (2024-08-09T12:23:36Z) - Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。
本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。
経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文 参考訳(メタデータ) (2024-06-17T07:25:09Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。