論文の概要: LLM$\times$MapReduce-V2: Entropy-Driven Convolutional Test-Time Scaling for Generating Long-Form Articles from Extremely Long Resources
- arxiv url: http://arxiv.org/abs/2504.05732v1
- Date: Tue, 08 Apr 2025 07:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:26.201660
- Title: LLM$\times$MapReduce-V2: Entropy-Driven Convolutional Test-Time Scaling for Generating Long-Form Articles from Extremely Long Resources
- Title(参考訳): LLM$\times$MapReduce-V2: Entropy-Driven Convolutional Test-Time Scaling for Generating Long-Form Articles from Extremely Long Resources
- Authors: Haoyu Wang, Yujia Fu, Zhu Zhang, Shuo Wang, Zirui Ren, Xiaorong Wang, Zhili Li, Chaoqun He, Bo An, Zhiyuan Liu, Maosong Sun,
- Abstract要約: ロングフォーム・ジェネレーションは幅広い実用用途において不可欠であり、通常はショート・ツー・ロング・トゥ・ロング・ジェネレーションに分類される。
短期から長期の世代は注目されているが、極端に長い資源から長いテキストを生成することは、比較的過小評価されている。
LLM$times$MapReduce-V2は,大規模言語モデルによる極めて長い入力処理能力の向上を目的とした,新しいテスト時間スケーリング戦略である。
- 参考スコア(独自算出の注目度): 65.41986915457058
- License:
- Abstract: Long-form generation is crucial for a wide range of practical applications, typically categorized into short-to-long and long-to-long generation. While short-to-long generations have received considerable attention, generating long texts from extremely long resources remains relatively underexplored. The primary challenge in long-to-long generation lies in effectively integrating and analyzing relevant information from extensive inputs, which remains difficult for current large language models (LLMs). In this paper, we propose LLM$\times$MapReduce-V2, a novel test-time scaling strategy designed to enhance the ability of LLMs to process extremely long inputs. Drawing inspiration from convolutional neural networks, which iteratively integrate local features into higher-level global representations, LLM$\times$MapReduce-V2 utilizes stacked convolutional scaling layers to progressively expand the understanding of input materials. Both quantitative and qualitative experimental results demonstrate that our approach substantially enhances the ability of LLMs to process long inputs and generate coherent, informative long-form articles, outperforming several representative baselines.
- Abstract(参考訳): ロングフォーム・ジェネレーションは幅広い実用用途において不可欠であり、通常はショート・ツー・ロング・トゥ・ロング・ジェネレーションに分類される。
短期から長期の世代は注目されているが、極端に長い資源から長いテキストを生成することは、比較的過小評価されている。
長期世代における最大の課題は、現在の大規模言語モデル(LLM)では困難である広範囲な入力からの関連情報を効果的に統合し分析することである。
本稿ではLLM$\times$MapReduce-V2を提案する。
LLM$\times$MapReduce-V2は、局所的な特徴を高レベルなグローバル表現に反復的に統合する畳み込みニューラルネットワークからインスピレーションを得た。
定量的および定性的な実験結果は,LLMが長い入力を処理し,コヒーレントで情報的な長い記事を生成する能力を大幅に向上し,いくつかの代表的ベースラインを上回っていることを示す。
関連論文リスト
- LIFT: Improving Long Context Understanding of Large Language Models through Long Input Fine-Tuning [45.30182393918228]
Long Input Fine-Tuning (LIFT)は、ロングコンテキストモデリングのための新しいフレームワークである。
LIFTは長い入力に基づいてモデルパラメータを動的に適応する。
Gated Memoryは、長期入力記憶とICLを自動的にバランスをとる特別なアテンションアダプタである。
論文 参考訳(メタデータ) (2025-02-20T15:32:24Z) - Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - TextGenSHAP: Scalable Post-hoc Explanations in Text Generation with Long
Documents [34.52684986240312]
LM固有の手法を取り入れた効率的なポストホック説明法であるTextGenSHAPを紹介する。
従来のShapley値計算と比較して,速度が大幅に向上することを示す。
さらに,実時間シェープ値が2つの重要なシナリオでどのように活用できるかを示す。
論文 参考訳(メタデータ) (2023-12-03T04:35:04Z) - LongBoX: Evaluating Transformers on Long-Sequence Clinical Tasks [44.89857441408805]
LongBoXは、テキストからテキストへのフォーマットで7つの医療データセットのコレクションである。
予備実験により、医療用LLMと強力な一般用LLMの両方がこのベンチマークで苦戦していることが明らかとなった。
長周期処理のための2つの手法を評価する: (i) 局所的言語的注意と (ii) フュージョン・イン・デコーダ (FiD)
論文 参考訳(メタデータ) (2023-11-16T04:57:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。