論文の概要: Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation
- arxiv url: http://arxiv.org/abs/2306.12916v3
- Date: Sun, 2 Jun 2024 20:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 21:20:11.235646
- Title: Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation
- Title(参考訳): 言語横断的な時間的要約:データセット、モデル、評価
- Authors: Ran Zhang, Jihed Ouni, Steffen Eger,
- Abstract要約: 言語横断要約(CLCTS)は、文化的アクセシビリティと理解を向上する可能性を持つ、ほとんど探索されていない領域である。
本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。
- 参考スコア(独自算出の注目度): 20.675242617417677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While summarization has been extensively researched in natural language processing (NLP), cross-lingual cross-temporal summarization (CLCTS) is a largely unexplored area that has the potential to improve cross-cultural accessibility and understanding. This paper comprehensively addresses the CLCTS task, including dataset creation, modeling, and evaluation. We (1) build the first CLCTS corpus with 328 instances for hDe-En (extended version with 455 instances) and 289 for hEn-De (extended version with 501 instances), leveraging historical fiction texts and Wikipedia summaries in English and German; (2) examine the effectiveness of popular transformer end-to-end models with different intermediate finetuning tasks; (3) explore the potential of GPT-3.5 as a summarizer; (4) report evaluations from humans, GPT-4, and several recent automatic evaluation metrics. Our results indicate that intermediate task finetuned end-to-end models generate bad to moderate quality summaries while GPT-3.5, as a zero-shot summarizer, provides moderate to good quality outputs. GPT-3.5 also seems very adept at normalizing historical text. To assess data contamination in GPT-3.5, we design an adversarial attack scheme in which we find that GPT-3.5 performs slightly worse for unseen source documents compared to seen documents. Moreover, it sometimes hallucinates when the source sentences are inverted against its prior knowledge with a summarization accuracy of 0.67 for plot omission, 0.71 for entity swap, and 0.53 for plot negation. Overall, our regression results of model performances suggest that longer, older, and more complex source texts (all of which are more characteristic for historical language variants) are harder to summarize for all models, indicating the difficulty of the CLCTS task.
- Abstract(参考訳): 要約は自然言語処理(NLP)において広範囲に研究されているが、言語間相互要約(CLCTS)は、文化的アクセシビリティと理解を改善する可能性を持つ、ほとんど探索されていない領域である。
本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。
1)hDe-Enの328インスタンス(拡張版455インスタンス)とhEn-Deの289インスタンス(拡張版501インスタンス)による最初のCLCTSコーパスの構築、英語とドイツ語の歴史的フィクションテキストとウィキペディア要約の活用、(2)中間微調整タスクの異なる一般的なトランスフォーマー・エンド・ツー・エンドモデルの有効性の検討、(3)要約としてGPT-3.5の可能性を探る、(4)人間、GPT-4、および最近の自動評価指標について報告する。
GPT-3.5は、ゼロショット要約器として、中程度から良質な出力を提供する一方、中間タスクの微調整されたエンドツーエンドモデルでは、品質の低いサマリーが生成されることが示唆された。
GPT-3.5は、歴史的テキストの正規化にも非常に適しているようである。
GPT-3.5におけるデータ汚染を評価するために,GPT-3.5は見つからない資料に対してわずかに悪影響を及ぼす敵意攻撃方式を設計した。
さらに、ソース文が以前の知識に対して逆転すると、プロット省略の総和精度0.67、エンティティスワップの0.71、プロット否定の0.53で幻覚することもある。
全体として、モデル性能の回帰結果は、より長く、より古く、より複雑なソーステキスト(これらは歴史的言語変種に特有なものである)は、全てのモデルについて要約するのが難しく、CLCTSタスクの難しさを示していることを示唆している。
関連論文リスト
- Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。
我々は,教師モデルとしてPythia-2.8Bから出発する。
我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文 参考訳(メタデータ) (2024-03-20T17:42:08Z) - Evaluating Named Entity Recognition: Comparative Analysis of Mono- and Multilingual Transformer Models on Brazilian Corporate Earnings Call Transcriptions [3.809702129519642]
本研究は,ブラジル銀行の決算報告書から抽出したポルトガル語テキストに焦点をあてる。
384文字からなる包括的データセットをキュレートすることにより、ポルトガル語で訓練された単言語モデルの性能を評価する。
以上の結果から,BERTベースモデルはT5ベースモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2024-03-18T19:53:56Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。
微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文 参考訳(メタデータ) (2023-10-27T10:03:21Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Prompted Opinion Summarization with GPT-3.5 [115.95460650578678]
GPT-3.5モデルは人体評価において非常に高い性能を示す。
我々は,標準評価指標がこれを反映していないことを論じ,忠実性,事実性,汎用性を重視した3つの新しい指標を導入する。
論文 参考訳(メタデータ) (2022-11-29T04:06:21Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。