Fugu-MT 論文翻訳(概要): TempoSum: Evaluating the Temporal Generalization of Abstractive Summarization

論文の概要: TempoSum: Evaluating the Temporal Generalization of Abstractive Summarization

arxiv url: http://arxiv.org/abs/2305.01951v1
Date: Wed, 3 May 2023 08:08:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-04 15:42:30.473492
Title: TempoSum: Evaluating the Temporal Generalization of Abstractive Summarization
Title（参考訳）: TempoSum:抽象的な要約の時間的一般化を評価する
Authors: Chi Seng Cheang, Hou Pong Chan, Derek F. Wong, Xuebo Liu, Zhaocong Li, Yanming Sun, Shudong Liu, Lidia S. Chao
Abstract要約: 最近の学習済み言語モデル(PLM)は、既存の抽象的な要約データセットにおいて有望な結果をもたらす。既存の要約ベンチマークは、標準の事前学習コーパスと微調整データセットと時間的に重複する。要約モデルに格納されたパラメトリック知識は、将来のデータに対する生成した要約の忠実度に大きく影響することを示す。
参考スコア（独自算出の注目度）: 37.42898207907749
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent pre-trained language models (PLMs) achieve promising results in existing abstractive summarization datasets. However, existing summarization benchmarks overlap in time with the standard pre-training corpora and finetuning datasets. Hence, the strong performance of PLMs may rely on the parametric knowledge that is memorized during pre-training and fine-tuning. Moreover, the knowledge memorized by PLMs may quickly become outdated, which affects the generalization performance of PLMs on future data. In this work, we propose TempoSum, a novel benchmark that contains data samples from 2010 to 2022, to understand the temporal generalization ability of abstractive summarization models. Through extensive human evaluation, we show that parametric knowledge stored in summarization models significantly affects the faithfulness of the generated summaries on future data. Moreover, existing faithfulness enhancement methods cannot reliably improve the faithfulness of summarization models on future data. Finally, we discuss several recommendations to the research community on how to evaluate and improve the temporal generalization capability of text summarization models.
Abstract（参考訳）: 最近の学習済み言語モデル(PLM)は、既存の抽象的な要約データセットにおいて有望な結果をもたらす。しかし、既存の要約ベンチマークは、標準の事前学習コーパスと微調整データセットと時間的に重なる。したがって、PLMの強い性能は、事前学習と微調整の間に記憶されるパラメトリック知識に依存する可能性がある。さらに, PLM が記憶する知識は急速に時代遅れになり, 将来のデータに対する PLM の一般化性能に影響を与える可能性がある。本研究では,抽象的な要約モデルの時間的一般化能力を理解するため,2010年から2022年までのデータサンプルを含む新しいベンチマークであるTempoSumを提案する。本研究では,要約モデルに蓄積されたパラメトリック知識が,生成した要約の忠実性に大きく影響することを示す。また,既存の忠実性向上手法は,将来のデータに対する要約モデルの忠実性を確実に改善することができない。最後に,テキスト要約モデルの時間的一般化能力の評価と改善について,研究コミュニティにいくつか提言する。

関連論文リスト

It's TIME: Towards the Next Generation of Time Series Forecasting Benchmarks [87.7937890373758]
時系列基礎モデル(TSFM)は,特定のデータセットモデルから一般化可能なタスク評価に至るまで,予測環境に革命をもたらしている。我々は、50の新しいデータセットと98の予測タスクからなる次世代タスク中心のベンチマークであるTIMEを紹介する。静的なメタラベルに基づく従来のデータセットレベルの評価を超える新しいパターンレベルの評価視点を提案する。
論文参考訳（メタデータ） (2026-02-12T16:31:01Z)
Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation [27.59197535041953]
大規模言語モデル(LLM)は推薦システムにとって有望なフロンティアである。本稿では,高品質な合成データを生成するための新しい階層化フレームワークを提案する。われわれは、当社の高品質なレコメンデーション特化データに基づいて、継続的に事前訓練されたLSMの堅牢なパワーロースケーリングを、初めて実証的に実証した。
論文参考訳（メタデータ） (2026-02-07T01:15:15Z)
Time Series Foundation Models: Benchmarking Challenges and Requirements [0.0]
時系列基礎モデル(TSFM)は、時系列予測の新しいパラダイムである。 TSFMの評価は、より広範なトレーニングセットと同様に、整合性ベンチマークデータの確保がより困難になるため、難しい。
論文参考訳（メタデータ） (2025-10-15T15:15:45Z)
DACP: Domain-Adaptive Continual Pre-Training of Large Language Models for Phone Conversation Summarization [10.083326281775939]
大規模言語モデル (LLM) はテキスト要約において顕著な性能を達成した。微調整は要約の品質を向上させることができるが、通常は高価で高品質なラベル付きデータに依存している。我々は、下流の要約タスクにLLMを適用するためのスケーラブルで自己管理的なアプローチとして、継続事前学習について検討する。
論文参考訳（メタデータ） (2025-10-07T12:26:19Z)
Empowering Time Series Analysis with Synthetic Data: A Survey and Outlook in the Era of Foundation Models [104.17057231661371]
時系列解析は複雑なシステムの力学を理解するために重要である。基本モデルの最近の進歩はタスク非依存の時系列基礎モデル (TSFM) と大規模言語モデルベース時系列モデル (TSLLM) につながっている。彼らの成功は、規制、多様性、品質、量制約のために構築が困難である、大規模で多様で高品質なデータセットに依存する。本調査では,TSFMとTLLLMの合成データの総合的なレビュー,データ生成戦略の分析,モデル事前学習におけるそれらの役割,微調整,評価,今後の研究方向性の特定について述べる。
論文参考訳（メタデータ） (2025-03-14T13:53:46Z)
Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文参考訳（メタデータ） (2024-11-24T04:56:45Z)
Are LLMs Prescient? A Continuous Evaluation using Daily News as the Oracle [13.192628306219248]
本稿では,大規模言語モデルの時間的一般化能力を評価するための連続評価手法として,将来の事象予測を提案する。私たちのベンチマークであるDaily Oracleは、毎日のニュースから質問と回答のペアを自動的に生成します。
論文参考訳（メタデータ） (2024-11-13T04:20:20Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
Model-based Preference Optimization in Abstractive Summarization without Human Feedback [5.438770095369458]
人間のフィードバックを伴わずに要約能力を向上させるために,モデルベース推論最適化(MPO)を導入している。標準要約データセットと各種測定値を用いた実験により,提案したMPOは,人間のフィードバックに頼らずに生成した要約の質を著しく向上することが示された。
論文参考訳（メタデータ） (2024-09-27T10:35:45Z)
A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting [45.0261082985087]
時間的事象予測のための大規模言語モデル(LLM)を総合的に評価する。 LLMの入力に生テキストを直接統合しても、ゼロショット補間性能は向上しないことがわかった。対照的に、特定の複雑なイベントや微調整LDMに生テキストを組み込むことで、性能が大幅に向上する。
論文参考訳（メタデータ） (2024-07-16T11:58:54Z)
Benchmarking Benchmark Leakage in Large Language Models [24.015208839742343]
本稿では,モデル予測精度をベンチマークで評価する2つの単純かつスケーラブルな指標であるPerplexityとN-gramの精度を利用した検出パイプラインを提案する。テストセットの誤用さえも、トレーニングのかなりの例を明らかにし、潜在的に不公平な比較を行う。ベンチマーク利用の明確なドキュメンテーションを促進するために,ベンチマーク透明性カードを提案する。
論文参考訳（メタデータ） (2024-04-29T16:05:36Z)
Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文参考訳（メタデータ） (2024-01-29T18:27:52Z)
Assessing Privacy Risks in Language Models: A Case Study on Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文参考訳（メタデータ） (2023-10-20T05:44:39Z)
Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文参考訳（メタデータ） (2020-12-04T19:21:37Z)
Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文参考訳（メタデータ） (2020-02-18T17:59:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。