論文の概要: LLM$\times$MapReduce-V2: Entropy-Driven Convolutional Test-Time Scaling for Generating Long-Form Articles from Extremely Long Resources
- arxiv url: http://arxiv.org/abs/2504.05732v2
- Date: Tue, 15 Apr 2025 03:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 06:38:45.981081
- Title: LLM$\times$MapReduce-V2: Entropy-Driven Convolutional Test-Time Scaling for Generating Long-Form Articles from Extremely Long Resources
- Title(参考訳): LLM$\times$MapReduce-V2: Entropy-Driven Convolutional Test-Time Scaling for Generating Long-Form Articles from Extremely Long Resources
- Authors: Haoyu Wang, Yujia Fu, Zhu Zhang, Shuo Wang, Zirui Ren, Xiaorong Wang, Zhili Li, Chaoqun He, Bo An, Zhiyuan Liu, Maosong Sun,
- Abstract要約: ロングフォーム生成は、幅広い実用用途に欠かせない。
短期から長期の世代は注目されているが、極端に長い資源から長いテキストを生成することは、比較的過小評価されている。
LLM$times$MapReduce-V2は,大規模言語モデルによる極めて長い入力処理能力の向上を目的とした,新しいテスト時間スケーリング戦略である。
- 参考スコア(独自算出の注目度): 65.41986915457058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form generation is crucial for a wide range of practical applications, typically categorized into short-to-long and long-to-long generation. While short-to-long generations have received considerable attention, generating long texts from extremely long resources remains relatively underexplored. The primary challenge in long-to-long generation lies in effectively integrating and analyzing relevant information from extensive inputs, which remains difficult for current large language models (LLMs). In this paper, we propose LLM$\times$MapReduce-V2, a novel test-time scaling strategy designed to enhance the ability of LLMs to process extremely long inputs. Drawing inspiration from convolutional neural networks, which iteratively integrate local features into higher-level global representations, LLM$\times$MapReduce-V2 utilizes stacked convolutional scaling layers to progressively expand the understanding of input materials. Both quantitative and qualitative experimental results demonstrate that our approach substantially enhances the ability of LLMs to process long inputs and generate coherent, informative long-form articles, outperforming several representative baselines. Both LLM$\times$MapReduce-V2 and SurveyEval are publicly available at https://github.com/thunlp/LLMxMapReduce .
- Abstract(参考訳): ロングフォーム・ジェネレーションは幅広い実用用途において不可欠であり、通常はショート・ツー・ロング・トゥ・ロング・ジェネレーションに分類される。
短期から長期の世代は注目されているが、極端に長い資源から長いテキストを生成することは、比較的過小評価されている。
長期世代における最大の課題は、現在の大規模言語モデル(LLM)では困難である広範囲な入力からの関連情報を効果的に統合し分析することである。
本稿ではLLM$\times$MapReduce-V2を提案する。
LLM$\times$MapReduce-V2は、局所的な特徴を高レベルなグローバル表現に反復的に統合する畳み込みニューラルネットワークからインスピレーションを得た。
定量的および定性的な実験結果は,LLMが長い入力を処理し,コヒーレントで情報的な長い記事を生成する能力を大幅に向上し,いくつかの代表的ベースラインを上回っていることを示す。
LLM$\times$MapReduce-V2 と SurveyEval はいずれも https://github.com/thunlp/LLMxMapReduce で公開されている。
関連論文リスト
- Shifting Long-Context LLMs Research from Input to Output [32.227507695283144]
本稿は,NLP研究におけるパラダイムシフトの提唱である。
小説の執筆、長期計画、複雑な推論といったタスクは、広範囲のコンテキストを理解し、一貫性があり、文脈的にリッチで論理的に一貫した拡張テキストを生成するモデルを必要とする。
我々は、この未探索領域の重要性を強調し、高品質で長期のアウトプットを生み出すのに適した基礎的LLMの開発に焦点をあてる。
論文 参考訳(メタデータ) (2025-03-06T18:59:37Z) - LongEval: A Comprehensive Analysis of Long-Text Generation Through a Plan-based Paradigm [21.661578831520963]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。
解析の結果,LLMは長文生成における長文要求や情報密度に悩まされていることが明らかとなった。
提案するLongEvalは,直接および計画に基づく生成パラダイムを用いて,長文生成を評価するベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T12:46:36Z) - Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - TextGenSHAP: Scalable Post-hoc Explanations in Text Generation with Long
Documents [34.52684986240312]
LM固有の手法を取り入れた効率的なポストホック説明法であるTextGenSHAPを紹介する。
従来のShapley値計算と比較して,速度が大幅に向上することを示す。
さらに,実時間シェープ値が2つの重要なシナリオでどのように活用できるかを示す。
論文 参考訳(メタデータ) (2023-12-03T04:35:04Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - Exploring the Potential of Large Language Models (LLMs) in Learning on
Graphs [59.74814230246034]
大規模言語モデル(LLM)は、広範な共通知識と強力な意味理解能力を持つことが証明されている。
LLMs-as-EnhancersとLLMs-as-Predictorsの2つのパイプラインについて検討する。
論文 参考訳(メタデータ) (2023-07-07T05:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。