論文の概要: CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels
- arxiv url: http://arxiv.org/abs/2412.02819v4
- Date: Tue, 17 Dec 2024 16:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:12.207562
- Title: CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels
- Title(参考訳): CNNSum:中国語小説における大規模言語モデルによる長文要約の探索
- Authors: Lingxiao Wei, He Yan, Xiangju Lu, Junmin Zhu, Jun Wang, Wei Zhang,
- Abstract要約: CNNSumは中国の小説に基づく長文要約のベンチマークである。
4つのサブセットは合計695個のサンプルを持ち、長さは16kから128kである。
我々は、長文要約を探索し、改善するための実験を行う。
- 参考スコア(独自算出の注目度): 11.614599448394374
- License:
- Abstract: Large Language Models (LLMs) have been well-researched in various long-context tasks. However, the scarcity of high-quality long-context summarization datasets has hindered further advancements in this area. To address this, we introduce CNNSum, a multi-scale long-context summarization benchmark based on Chinese novels, featuring human-driven annotations, which comprises four subsets totaling 695 samples, with lengths ranging from 16k to 128k. We evaluate numerous LLMs and conduct detailed case analyses. Furthermore, we conduct extensive fine-tuning experiments to explore and improve long-context summarization. In our study: (1) Advanced LLMs like GPT-4o may still generate subjective commentary, leading to vague summaries. (2) Currently, long-context summarization mainly relies on memory ability afforded by longer context lengths. The advantages of Large LLMs are hard to utilize, thus small LLMs are the most cost-effective. (3) Different prompt templates paired with various version models may cause large performance gaps. In further fine-tuning, these can be mitigated, and the Base version models perform better. (4) LLMs with RoPE-base scaled exhibit strong extrapolation potential; using short-context data can significantly improve long-context summarization performance. However, further applying other interpolation methods requires careful selection. (5) CNNSum provides more reliable and insightful evaluation results than other benchmarks. We release CNNSum to advance future research in this field. https://github.com/CxsGhost/CNNSum
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な長いコンテキストタスクにおいてよく研究されている。
しかし、高品質な長文要約データセットの不足は、この分野のさらなる進歩を妨げている。
これを解決するために,中国小説をベースとした多スケール長文要約ベンチマークCNNSumを紹介した。
多数のLCMを評価し,詳細な事例分析を行った。
さらに、長いコンテキストの要約を探索し、改善するための広範囲な微調整実験を行う。
1) GPT-4o のような先進的な LLM は依然として主観的な注釈を生じ、曖昧な要約に繋がる可能性がある。
2) 長文要約は, 文脈長の長いメモリ能力に大きく依存している。
大型LLMの利点は利用が難しいため、小型LLMが最も費用対効果が高い。
(3)様々なバージョンモデルと組み合わせた異なるプロンプトテンプレートは、大きなパフォーマンスギャップを引き起こす可能性がある。
さらなる微調整では、これらを緩和でき、ベースバージョンモデルの性能が向上する。
(4) RoPEをベースとしたLLMは強い補間ポテンシャルを示し, 短文データを用いることで, 長文要約性能を著しく向上させることができる。
しかし、他の補間法を適用するには慎重に選択する必要がある。
(5) CNNSumは、他のベンチマークよりも信頼性が高く洞察に富んだ評価結果を提供する。
我々はCNNSumをリリースし、この分野における今後の研究を進めていく。
https://github.com/CxsGhost/CNNSum
関連論文リスト
- ACER: Automatic Language Model Context Extension via Retrieval [36.40066695682234]
現在のオープンウェイト・ジェネリリストのロングコンテキストモデルは、実用的ロングコンテキスト処理タスクにはまだ欠けている。
短文LMを用いて,この処理を模倣するテキスト自動データ合成パイプラインを構築した。
短文LMは、タスク固有の長文機能を得るために、これらの自己生成データを使ってさらに調整される。
論文 参考訳(メタデータ) (2024-10-11T17:57:06Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。