論文の概要: LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models
- arxiv url: http://arxiv.org/abs/2410.09342v1
- Date: Sat, 12 Oct 2024 03:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 15:03:37.994818
- Title: LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models
- Title(参考訳): LLM$\times$MapReduce:大規模言語モデルを用いた単純化されたロングシーケンス処理
- Authors: Zihan Zhou, Chong Li, Xinyi Chen, Shuo Wang, Yu Chao, Zhili Li, Haoyu Wang, Rongqiao An, Qi Shi, Zhixing Tan, Xu Han, Xiaodong Shi, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
- 参考スコア(独自算出の注目度): 73.13933847198395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enlarging the context window of large language models (LLMs) has become a crucial research area, particularly for applications involving extremely long texts. In this work, we propose a novel training-free framework for processing long texts, utilizing a divide-and-conquer strategy to achieve comprehensive document understanding. The proposed LLM$\times$MapReduce framework splits the entire document into several chunks for LLMs to read and then aggregates the intermediate answers to produce the final output. The main challenge for divide-and-conquer long text processing frameworks lies in the risk of losing essential long-range information when splitting the document, which can lead the model to produce incomplete or incorrect answers based on the segmented texts. Disrupted long-range information can be classified into two categories: inter-chunk dependency and inter-chunk conflict. We design a structured information protocol to better cope with inter-chunk dependency and an in-context confidence calibration mechanism to resolve inter-chunk conflicts. Experimental results demonstrate that LLM$\times$MapReduce can outperform representative open-source and commercial long-context LLMs, and is applicable to several different models.
- Abstract(参考訳): 大規模言語モデル(LLM)のコンテキストウィンドウの拡大は、特に非常に長いテキストを含むアプリケーションにおいて重要な研究領域となっている。
そこで本研究では,文書理解を包括的に行うための分割・クエリ戦略を用いて,長文処理のための新たな学習自由フレームワークを提案する。
提案された LLM$\times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
分割・分散長文処理フレームワークの最大の課題は、文書を分割する際に必須の長距離情報を失うリスクにある。
混乱した長距離情報は、チャンク間の依存性とチャンク間の競合の2つのカテゴリに分類される。
我々は、チャンク間の依存に対処するための構造化情報プロトコルと、チャンク間の競合を解決するためのコンテキスト内信頼度調整機構を設計する。
実験により, LLM$\times$MapReduce はオープンソースおよび商用の長文 LLM よりも優れており, 様々なモデルに適用可能であることが示された。
関連論文リスト
- SEGMENT+: Long Text Processing with Short-Context Language Models [53.40059130780192]
SEGMENT+は、LMが限られたコンテキストウィンドウ内で拡張入力を効率的に処理できるフレームワークである。
SEGMENT+は構造化音符とフィルタリングモジュールを使用して情報の流れを管理し、制御可能かつ解釈可能なシステムを実現する。
論文 参考訳(メタデータ) (2024-10-09T03:40:22Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - FragRel: Exploiting Fragment-level Relations in the External Memory of Large Language Models [54.13671100638092]
断片接続型階層型メモリベース大規模言語モデル(LLM)を提案する。
外部メモリにおけるフラグメントレベルの関係を定式化し、異なるテキストタイプに対していくつかのインスタンスを提示する。
長いストーリー理解、リポジトリレベルのコード生成、長期チャットにこれらの関係を組み込むことの利点を検証する。
論文 参考訳(メタデータ) (2024-06-05T09:31:37Z) - Chain of Agents: Large Language Models Collaborating on Long-Context Tasks [39.27648679819897]
CoA(Chain-of-Agents)は、自然言語によるマルチエージェントコラボレーションを利用して、情報集約とコンテキスト推論を可能にする新しいフレームワークである。
CoAは読み出しと推論をインターリーブすることで入力全体を処理し、各エージェントに短いコンテキストを割り当てることで、長いコンテキストのフォーカス問題を軽減します。
論文 参考訳(メタデータ) (2024-06-04T23:36:08Z) - Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。
データマイニングフレームワーク textbfProLong を提案する。
複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文 参考訳(メタデータ) (2024-05-28T07:36:56Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Small Language Model Is a Good Guide for Large Language Model in Chinese
Entity Relation Extraction [13.344709924683471]
本稿では,モデルコラボレーションフレームワークSLCoLMを提案する。
textit-Training-Guide-Predict' 戦略を用いて,事前学習言語モデル (PLM) と大規模言語モデル (LLM) の強みを組み合わせる。
関係型に富んだREデータセットに対する実験により,本論文のアプローチが長い関係型のREを促進することを示す。
論文 参考訳(メタデータ) (2024-02-22T08:26:56Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - PEARL: Prompting Large Language Models to Plan and Execute Actions Over
Long Documents [78.27865456183397]
長い文書に対する推論を改善するためのフレームワークであるPEARLを提案する。
PEARLの各ステージは、最小限の人間の入力でゼロショットまたは少数ショットのプロンプトによって実装される。
PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長い物語テキストに対して複雑な推論を必要とする質問を含む。
論文 参考訳(メタデータ) (2023-05-23T23:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。