論文の概要: CNNSum: Exploring Long-Conext Summarization with Large Language Models in Chinese Novels
- arxiv url: http://arxiv.org/abs/2412.02819v1
- Date: Tue, 03 Dec 2024 20:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:58.474453
- Title: CNNSum: Exploring Long-Conext Summarization with Large Language Models in Chinese Novels
- Title(参考訳): CNNSum:中国小説における大規模言語モデルによる長期要約の探求
- Authors: Lingxiao Wei, He Yan, Xiangju Lu, Junmin Zhu, Jun Wang, Wei Zhang,
- Abstract要約: CNNSumは、中国のマルチスケールの長文小説要約ベンチマークである。
我々は、CNNSum上で商用およびオープンソースモデルを評価し、詳細な分析を行う。
- 参考スコア(独自算出の注目度): 11.614599448394374
- License:
- Abstract: Large Language Models (LLMs) have been well-researched in many long-context tasks. However, due to high annotation costs, high-quality long-context summary datasets for training or evaluation are scarce, limiting further research. In this work, we introduce CNNSum, a new multi-scale Chinese long-context novel summarization benchmark, including four subsets, length covering 16k\textasciitilde128k, 695 samples in total, the annotations are human-driven. We evaluate commercial and open-source models on CNNSum and conduct a detailed analysis. Based on the observations, we further conduct fine-tuning exploration with short-context summary data. In our study: (1) GPT-4o underperformed, due to excessive subjective commentary. (2) Currently, long-context summarization mainly relies on memory ability, small LLMs with stable longer context lengths are the most cost-effective. Using long data concatenated from short-context summaries makes a significant improvement. (3) Prompt templates may cause a large performance gap but can be mitigated through fine-tuning. (4) Fine-tuned Chat or Instruction versions may harm the Base model and further fine-tuning cannot bridge performance gap. (5) while models with RoPE base scaling exhibit strong extrapolation potential, their performance may vary significantly when combined with other interpolation methods and need careful selection. (6) CNNSum provides more reliable and insightful evaluation results than other benchmarks. We release CNNSum to advance research in this field.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの長いコンテキストタスクにおいてよく研究されている。
しかし、アノテーションのコストが高いため、トレーニングや評価のための高品質な長文要約データセットが不足しており、さらなる研究が制限されている。
本研究では,CNNSumについて紹介する。CNNSumは4つのサブセット,長さ16k\textasciitilde128k,合計695サンプルをカバーし,アノテーションは人間駆動型である。
我々は、CNNSum上で商用およびオープンソースモデルを評価し、詳細な分析を行う。
観察結果に基づき,短文要約データを用いて微調整探索を行う。
1) GPT-4oは過度な主観的コメントが原因で性能が低下した。
2) 現在, 長文要約は主にメモリ能力に依存しており, 安定な長文長のLLMが最も費用対効果が高い。
短文の要約から連結した長いデータを使用することで、大幅な改善が期待できる。
(3) Promptテンプレートは大きなパフォーマンスギャップを引き起こすが、微調整によって緩和できる。
(4) 微調整のチャットやインストラクションバージョンはベースモデルに悪影響を及ぼす可能性があり、さらに微調整は性能ギャップを埋めることができない。
(5) RoPEベーススケーリングモデルでは強い外挿ポテンシャルを示すが, 他の補間手法と組み合わせて, 慎重に選択する必要がある場合には, 性能が著しく変化する可能性がある。
(6)CNNSumは他のベンチマークよりも信頼性が高く洞察に富んだ評価結果を提供する。
我々はCNNSumをリリースし、この分野の研究を進めていく。
関連論文リスト
- ACER: Automatic Language Model Context Extension via Retrieval [36.40066695682234]
現在のオープンウェイト・ジェネリリストのロングコンテキストモデルは、実用的ロングコンテキスト処理タスクにはまだ欠けている。
短文LMを用いて,この処理を模倣するテキスト自動データ合成パイプラインを構築した。
短文LMは、タスク固有の長文機能を得るために、これらの自己生成データを使ってさらに調整される。
論文 参考訳(メタデータ) (2024-10-11T17:57:06Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。