論文の概要: CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels
- arxiv url: http://arxiv.org/abs/2412.02819v5
- Date: Mon, 02 Jun 2025 11:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:42.902301
- Title: CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels
- Title(参考訳): CNNSum:中国語小説における大規模言語モデルによる長文要約の探索
- Authors: Lingxiao Wei, He Yan, Xiangju Lu, Junmin Zhu, Jun Wang, Wei Zhang,
- Abstract要約: CNNSumは,中国小説をベースとした多スケール長文要約ベンチマークである。
CNNSumは4つのサブセットにまたがって、合計695のサンプルで、長さは16kから128kである。
我々は、多数のLCMをベンチマークし、異常な出力タイプを要約するために詳細な人間の評価を行う。
- 参考スコア(独自算出の注目度): 11.614599448394374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been well-researched in various long-context tasks. However, the scarcity of long-context summarization datasets hinders progress in this area. To address this, we introduce CNNSum, a multi-scale long-context summarization benchmark based on Chinese novels, featuring human-driven annotations across four subsets totaling 695 samples, with lengths ranging from 16k to 128k. We benchmark numerous LLMs and conduct detailed human assessments to summarize abnormal output types. Furthermore, we extensively explore how to improve long-context summarization. In our study: (1) Advanced LLMs may generate much subjective commentary, leading to vague summaries. (2) Currently, long-context summarization mainly relies on memory ability. The advantages of Large LLMs are hard to utilize, thus small LLMs are more cost-effective. (3) Different prompt types paired with various version models may cause large performance gaps. In further fine-tuning, these can be mitigated, and the Base version models perform better. (4) LLMs with RoPE-base scaled exhibit strong extrapolation potential; using short-context data can significantly improve long-context summarization performance. However, further applying other interpolation methods requires careful selection. (5) CNNSum provides more reliable evaluation results than other benchmarks. We release CNNSum to advance future research.(https://github.com/CxsGhost/CNNSum)
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な長いコンテキストタスクにおいてよく研究されている。
しかし、長文要約データセットの不足は、この分野の進歩を妨げる。
これを解決するために,中国小説をベースとした多スケール長文要約ベンチマークであるCNNSumを紹介した。
我々は、多数のLCMをベンチマークし、異常な出力タイプを要約するために詳細な人間の評価を行う。
さらに、長文要約を改善する方法について広範囲にわたって検討する。
1)高度なLCMは主観的なコメントを多く生成し,曖昧な要約に繋がる可能性がある。
2) 現在,長文要約は主に記憶能力に依存している。
大型LLMの利点は利用が難しいため、小型LLMの方が費用対効果が高い。
(3)様々なバージョンモデルと組み合わせた異なるプロンプト型は、大きなパフォーマンスギャップを引き起こす可能性がある。
さらなる微調整では、これらを緩和でき、ベースバージョンモデルの性能が向上する。
(4) RoPEをベースとしたLLMは強い補間ポテンシャルを示し, 短文データを用いることで, 長文要約性能を著しく向上させることができる。
しかし、他の補間法を適用するには慎重に選択する必要がある。
(5) CNNSumは他のベンチマークよりも信頼性の高い評価結果を提供する。
我々は今後の研究を進めるためにCNNSumをリリースする。
(https://github.com/CxsGhost/CNNSum)
関連論文リスト
- Can LLMs reason over extended multilingual contexts? Towards long-context evaluation beyond retrieval and haystacks [22.859955360764275]
MLRBenchは多言語長文推論のための合成ベンチマークである。
並列性があり、リークに耐性があり、任意のコンテキスト長に対してスケーラブルであるように設計されている。
論文 参考訳(メタデータ) (2025-04-17T11:02:35Z) - Understanding LLMs' Cross-Lingual Context Retrieval: How Good It Is And Where It Comes From [61.63091726904068]
12言語にわたる40以上の大言語モデル(LLM)の言語間コンテキスト検索能力を評価する。
いくつかの小さな訓練後のオープンLLMは、強い言語間コンテキスト検索能力を示している。
また, 大規模プレトレーニングでは, xMRCの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2025-04-15T06:35:27Z) - Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models [58.54538318912159]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文 参考訳(メタデータ) (2023-10-30T03:11:30Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。