論文の概要: CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels
- arxiv url: http://arxiv.org/abs/2412.02819v4
- Date: Tue, 17 Dec 2024 16:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:12.207562
- Title: CNNSum: Exploring Long-Context Summarization with Large Language Models in Chinese Novels
- Title(参考訳): CNNSum:中国語小説における大規模言語モデルによる長文要約の探索
- Authors: Lingxiao Wei, He Yan, Xiangju Lu, Junmin Zhu, Jun Wang, Wei Zhang,
- Abstract要約: CNNSumは中国の小説に基づく長文要約のベンチマークである。
4つのサブセットは合計695個のサンプルを持ち、長さは16kから128kである。
我々は、長文要約を探索し、改善するための実験を行う。
- 参考スコア(独自算出の注目度): 11.614599448394374
- License:
- Abstract: Large Language Models (LLMs) have been well-researched in various long-context tasks. However, the scarcity of high-quality long-context summarization datasets has hindered further advancements in this area. To address this, we introduce CNNSum, a multi-scale long-context summarization benchmark based on Chinese novels, featuring human-driven annotations, which comprises four subsets totaling 695 samples, with lengths ranging from 16k to 128k. We evaluate numerous LLMs and conduct detailed case analyses. Furthermore, we conduct extensive fine-tuning experiments to explore and improve long-context summarization. In our study: (1) Advanced LLMs like GPT-4o may still generate subjective commentary, leading to vague summaries. (2) Currently, long-context summarization mainly relies on memory ability afforded by longer context lengths. The advantages of Large LLMs are hard to utilize, thus small LLMs are the most cost-effective. (3) Different prompt templates paired with various version models may cause large performance gaps. In further fine-tuning, these can be mitigated, and the Base version models perform better. (4) LLMs with RoPE-base scaled exhibit strong extrapolation potential; using short-context data can significantly improve long-context summarization performance. However, further applying other interpolation methods requires careful selection. (5) CNNSum provides more reliable and insightful evaluation results than other benchmarks. We release CNNSum to advance future research in this field. https://github.com/CxsGhost/CNNSum
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な長いコンテキストタスクにおいてよく研究されている。
しかし、高品質な長文要約データセットの不足は、この分野のさらなる進歩を妨げている。
これを解決するために,中国小説をベースとした多スケール長文要約ベンチマークCNNSumを紹介した。
多数のLCMを評価し,詳細な事例分析を行った。
さらに、長いコンテキストの要約を探索し、改善するための広範囲な微調整実験を行う。
1) GPT-4o のような先進的な LLM は依然として主観的な注釈を生じ、曖昧な要約に繋がる可能性がある。
2) 長文要約は, 文脈長の長いメモリ能力に大きく依存している。
大型LLMの利点は利用が難しいため、小型LLMが最も費用対効果が高い。
(3)様々なバージョンモデルと組み合わせた異なるプロンプトテンプレートは、大きなパフォーマンスギャップを引き起こす可能性がある。
さらなる微調整では、これらを緩和でき、ベースバージョンモデルの性能が向上する。
(4) RoPEをベースとしたLLMは強い補間ポテンシャルを示し, 短文データを用いることで, 長文要約性能を著しく向上させることができる。
しかし、他の補間法を適用するには慎重に選択する必要がある。
(5) CNNSumは、他のベンチマークよりも信頼性が高く洞察に富んだ評価結果を提供する。
我々はCNNSumをリリースし、この分野における今後の研究を進めていく。
https://github.com/CxsGhost/CNNSum
関連論文リスト
- Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。
探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。
私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models [58.54538318912159]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文 参考訳(メタデータ) (2023-10-30T03:11:30Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。