Fugu-MT 論文翻訳(概要): CNNSum: Exploring Long-Conext Summarization with Large Language Models in Chinese Novels

論文の概要: CNNSum: Exploring Long-Conext Summarization with Large Language Models in Chinese Novels

arxiv url: http://arxiv.org/abs/2412.02819v1
Date: Tue, 03 Dec 2024 20:35:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.449417
Title: CNNSum: Exploring Long-Conext Summarization with Large Language Models in Chinese Novels
Title（参考訳）: CNNSum:中国小説における大規模言語モデルによる長期要約の探求
Authors: Lingxiao Wei, He Yan, Xiangju Lu, Junmin Zhu, Jun Wang, Wei Zhang,
Abstract要約: CNNSumは、中国のマルチスケールの長文小説要約ベンチマークである。我々は、CNNSum上で商用およびオープンソースモデルを評価し、詳細な分析を行う。
参考スコア（独自算出の注目度）: 11.614599448394374
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have been well-researched in many long-context tasks. However, due to high annotation costs, high-quality long-context summary datasets for training or evaluation are scarce, limiting further research. In this work, we introduce CNNSum, a new multi-scale Chinese long-context novel summarization benchmark, including four subsets, length covering 16k\textasciitilde128k, 695 samples in total, the annotations are human-driven. We evaluate commercial and open-source models on CNNSum and conduct a detailed analysis. Based on the observations, we further conduct fine-tuning exploration with short-context summary data. In our study: (1) GPT-4o underperformed, due to excessive subjective commentary. (2) Currently, long-context summarization mainly relies on memory ability, small LLMs with stable longer context lengths are the most cost-effective. Using long data concatenated from short-context summaries makes a significant improvement. (3) Prompt templates may cause a large performance gap but can be mitigated through fine-tuning. (4) Fine-tuned Chat or Instruction versions may harm the Base model and further fine-tuning cannot bridge performance gap. (5) while models with RoPE base scaling exhibit strong extrapolation potential, their performance may vary significantly when combined with other interpolation methods and need careful selection. (6) CNNSum provides more reliable and insightful evaluation results than other benchmarks. We release CNNSum to advance research in this field.
Abstract（参考訳）: 大規模言語モデル(LLM)は多くの長いコンテキストタスクにおいてよく研究されている。しかし、アノテーションのコストが高いため、トレーニングや評価のための高品質な長文要約データセットが不足しており、さらなる研究が制限されている。本研究では,CNNSumについて紹介する。CNNSumは4つのサブセット,長さ16k\textasciitilde128k,合計695サンプルをカバーし,アノテーションは人間駆動型である。我々は、CNNSum上で商用およびオープンソースモデルを評価し、詳細な分析を行う。観察結果に基づき,短文要約データを用いて微調整探索を行う。 1) GPT-4oは過度な主観的コメントが原因で性能が低下した。 2) 現在, 長文要約は主にメモリ能力に依存しており, 安定な長文長のLLMが最も費用対効果が高い。短文の要約から連結した長いデータを使用することで、大幅な改善が期待できる。 (3) Promptテンプレートは大きなパフォーマンスギャップを引き起こすが、微調整によって緩和できる。 (4) 微調整のチャットやインストラクションバージョンはベースモデルに悪影響を及ぼす可能性があり、さらに微調整は性能ギャップを埋めることができない。 (5) RoPEベーススケーリングモデルでは強い外挿ポテンシャルを示すが, 他の補間手法と組み合わせて, 慎重に選択する必要がある場合には, 性能が著しく変化する可能性がある。 (6)CNNSumは他のベンチマークよりも信頼性が高く洞察に富んだ評価結果を提供する。我々はCNNSumをリリースし、この分野の研究を進めていく。

関連論文リスト

NeedleChain: Measuring Intact Long-Context Reasoning Capability of Large Language Models [7.134358758293254]
Needle-in-a-Haystackベンチマークは、長期文脈(LC)を理解するLarge Language Models(LLM)能力を評価するために広く利用されている。 GPT-4oのような最先端モデルでさえ、クエリ関連10文のみからなる与えられたコンテキストをそのまま組み込むのに苦労していることを実証する。我々は新しいベンチマークである textbfNeedleChain を導入し、そのコンテキストはクエリ関連情報から成り立っている。
論文参考訳（メタデータ） (2025-07-30T06:29:50Z)
Too Long, Didn't Model: Decomposing LLM Long-Context Understanding With Novels [3.537369004801589]
Too Long, Didn't Modelベンチマークをリリースしました。プロットサマリー、ストーリーワールド構成、経過したストーリータイムを報告するモデルの能力をテストする。テストされた7つのフロンティアLSMのうち、64kトークン以上の安定な理解は得られていない。
論文参考訳（メタデータ） (2025-05-20T21:21:09Z)
Can LLMs reason over extended multilingual contexts? Towards long-context evaluation beyond retrieval and haystacks [22.859955360764275]
MLRBenchは多言語長文推論のための合成ベンチマークである。並列性があり、リークに耐性があり、任意のコンテキスト長に対してスケーラブルであるように設計されている。
論文参考訳（メタデータ） (2025-04-17T11:02:35Z)
Understanding LLMs' Cross-Lingual Context Retrieval: How Good It Is And Where It Comes From [61.63091726904068]
12言語にわたる40以上の大言語モデル(LLM)の言語間コンテキスト検索能力を評価する。いくつかの小さな訓練後のオープンLLMは、強い言語間コンテキスト検索能力を示している。また, 大規模プレトレーニングでは, xMRCの性能が向上することが示唆された。
論文参考訳（メタデータ） (2025-04-15T06:35:27Z)
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文参考訳（メタデータ） (2024-11-07T18:59:27Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models [58.54538318912159]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。 M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文参考訳（メタデータ） (2023-10-30T03:11:30Z)
On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文参考訳（メタデータ） (2023-10-16T16:45:12Z)
BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。 5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文参考訳（メタデータ） (2023-09-23T11:36:15Z)
LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (2023-08-28T11:53:40Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。