論文の概要: CNNSum: Exploring Long-Conext Summarization with Large Language Models in Chinese Novels
- arxiv url: http://arxiv.org/abs/2412.02819v2
- Date: Thu, 05 Dec 2024 17:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 11:19:19.470597
- Title: CNNSum: Exploring Long-Conext Summarization with Large Language Models in Chinese Novels
- Title(参考訳): CNNSum:中国小説における大規模言語モデルによる長期要約の探求
- Authors: Lingxiao Wei, He Yan, Xiangju Lu, Junmin Zhu, Jun Wang, Wei Zhang,
- Abstract要約: CNNSumは、中国のマルチスケールの長文小説要約ベンチマークである。
我々は、CNNSum上で商用およびオープンソースモデルを評価し、詳細な分析を行う。
- 参考スコア(独自算出の注目度): 11.614599448394374
- License:
- Abstract: Large Language Models (LLMs) have been well-researched in many long-context tasks. However, due to high annotation costs, high-quality long-context summary datasets for training or evaluation are scarce, limiting further research. In this work, we introduce CNNSum, a new multi-scale Chinese long-context novel summarization benchmark, including four subsets, length covering 16k\textasciitilde128k, 695 samples in total, the annotations are human-driven. We evaluate commercial and open-source models on CNNSum and conduct a detailed analysis. Based on the observations, we further conduct fine-tuning exploration with short-context summary data. In our study: (1) GPT-4o underperformed, due to excessive subjective commentary. (2) Currently, long-context summarization mainly relies on memory ability, small LLMs with stable longer context lengths are the most cost-effective. Using long data concatenated from short-context summaries makes a significant improvement. (3) Prompt templates may cause a large performance gap but can be mitigated through fine-tuning. (4) Fine-tuned Chat or Instruction versions may harm the Base model and further fine-tuning cannot bridge performance gap. (5) while models with RoPE base scaling exhibit strong extrapolation potential, their performance may vary significantly when combined with other interpolation methods and need careful selection. (6) CNNSum provides more reliable and insightful evaluation results than other benchmarks. We release CNNSum to advance research in this field.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの長いコンテキストタスクにおいてよく研究されている。
しかし、アノテーションのコストが高いため、トレーニングや評価のための高品質な長文要約データセットが不足しており、さらなる研究が制限されている。
本研究では,CNNSumについて紹介する。CNNSumは4つのサブセット,長さ16k\textasciitilde128k,合計695サンプルをカバーし,アノテーションは人間駆動型である。
我々は、CNNSum上で商用およびオープンソースモデルを評価し、詳細な分析を行う。
観察結果に基づき,短文要約データを用いて微調整探索を行う。
1) GPT-4oは過度な主観的コメントが原因で性能が低下した。
2) 現在, 長文要約は主にメモリ能力に依存しており, 安定な長文長のLLMが最も費用対効果が高い。
短文の要約から連結した長いデータを使用することで、大幅な改善が期待できる。
(3) Promptテンプレートは大きなパフォーマンスギャップを引き起こすが、微調整によって緩和できる。
(4) 微調整のチャットやインストラクションバージョンはベースモデルに悪影響を及ぼす可能性があり、さらに微調整は性能ギャップを埋めることができない。
(5) RoPEベーススケーリングモデルでは強い外挿ポテンシャルを示すが, 他の補間手法と組み合わせて, 慎重に選択する必要がある場合には, 性能が著しく変化する可能性がある。
(6)CNNSumは他のベンチマークよりも信頼性が高く洞察に富んだ評価結果を提供する。
我々はCNNSumをリリースし、この分野の研究を進めていく。
関連論文リスト
- Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。
探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。
私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models [58.54538318912159]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文 参考訳(メタデータ) (2023-10-30T03:11:30Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。