論文の概要: Scaling Multi-Document Event Summarization: Evaluating Compression vs. Full-Text Approaches
- arxiv url: http://arxiv.org/abs/2502.06617v1
- Date: Mon, 10 Feb 2025 16:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:42.906675
- Title: Scaling Multi-Document Event Summarization: Evaluating Compression vs. Full-Text Approaches
- Title(参考訳): マルチドキュメントイベント要約のスケールアップ:圧縮とフルテキストアプローチの評価
- Authors: Adithya Pratapa, Teruko Mitamura,
- Abstract要約: 大規模なマルチドキュメント要約(MDS)のための2種類のシステムとは対照的に、圧縮とフルテキストである。
フルテキストメソッドは、長期コンテキスト推論の最近の進歩に頼って、損失のない要約を約束する。
圧縮に基づく手法は、中間段階において強い確証を示し、フルコンテキストよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 5.856976164399712
- License:
- Abstract: Automatically summarizing large text collections is a valuable tool for document research, with applications in journalism, academic research, legal work, and many other fields. In this work, we contrast two classes of systems for large-scale multi-document summarization (MDS): compression and full-text. Compression-based methods use a multi-stage pipeline and often lead to lossy summaries. Full-text methods promise a lossless summary by relying on recent advances in long-context reasoning. To understand their utility on large-scale MDS, we evaluated them on three datasets, each containing approximately one hundred documents per summary. Our experiments cover a diverse set of long-context transformers (Llama-3.1, Command-R, Jamba-1.5-Mini) and compression methods (retrieval-augmented, hierarchical, incremental). Overall, we find that full-text and retrieval methods perform the best in most settings. With further analysis into the salient information retention patterns, we show that compression-based methods show strong promise at intermediate stages, even outperforming full-context. However, they suffer information loss due to their multi-stage pipeline and lack of global context. Our results highlight the need to develop hybrid approaches that combine compression and full-text approaches for optimal performance on large-scale multi-document summarization.
- Abstract(参考訳): 大規模なテキストコレクションの自動要約は、ジャーナリズム、学術研究、法律研究、その他多くの分野に応用されたドキュメント研究にとって貴重なツールである。
本研究では,大規模マルチドキュメント要約システム(MDS)の圧縮とフルテキストの2つのクラスを対比する。
圧縮ベースの手法は多段パイプラインを使用し、しばしば損失の少ない要約に繋がる。
フルテキストメソッドは、長期コンテキスト推論の最近の進歩に頼って、損失のない要約を約束する。
大規模MDSにおけるそれらの有用性を理解するため、3つのデータセットで評価した。
実験では,Llama-3.1,Command-R,Jamba-1.5-Mini) と圧縮法(検索,階層化,漸進化)の多種多様な長文変換器について検討した。
全体として、ほとんどの設定において、全文検索と検索が最善であることがわかった。
健全な情報保持パターンのさらなる分析により、圧縮に基づく手法は中間段階において強い確証を示し、フルコンテキストよりも優れていることを示す。
しかし、多段階パイプラインとグローバルコンテキストの欠如により、情報損失に悩まされる。
この結果から,大規模マルチドキュメント要約において,圧縮とフルテキストを併用したハイブリッド手法の開発の必要性が示唆された。
関連論文リスト
- Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective
Augmentation [61.53695868960846]
テキスト内統合に先立って,検索した文書をテキスト要約に圧縮する手法を提案する。
これにより、計算コストを削減できるだけでなく、長期検索された文書の関連情報を識別する上で、LMの負担を軽減できる。
本研究では,あるLMに対して訓練した圧縮機を言語モデリングタスク上で他のLMに転送し,検索した文書にほぼ忠実な要約を提供することを示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:36Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues
and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。
LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。
実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-10-16T06:19:54Z) - PoBRL: Optimizing Multi-Document Summarization by Blending Reinforcement
Learning Policies [68.8204255655161]
マルチドキュメントの要約を解くための強化学習ベースのフレームワーク PoBRL を提案する。
私たちの戦略は、この多対象最適化を、強化学習によって個別に解決できるさまざまなサブ問題に分離します。
実験結果から,複数のマルチドキュメントデータセットにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2021-05-18T02:55:42Z) - On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。
本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。
分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文 参考訳(メタデータ) (2020-12-28T08:10:28Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。