Fugu-MT 論文翻訳(概要): PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents

論文の概要: PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents

arxiv url: http://arxiv.org/abs/2305.14564v1
Date: Tue, 23 May 2023 23:06:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 21:28:34.953469
Title: PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents
Title（参考訳）: pearl: 大きな言語モデルに長いドキュメントに対するアクションの計画と実行を促す
Authors: Simeng Sun, Yang Liu, Shuohang Wang, Chenguang Zhu, Mohit Iyyer
Abstract要約: 長い文書に対する推論を改善するためのフレームワークであるPEARLを提案する。 PEARLの各ステージは、最小限の人間の入力でゼロショットまたは少数ショットのプロンプトによって実装される。 PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長い物語テキストに対して複雑な推論を必要とする質問を含む。
参考スコア（独自算出の注目度）: 78.27865456183397
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Strategies such as chain-of-thought prompting improve the performance of large language models (LLMs) on complex reasoning tasks by decomposing input examples into intermediate steps. However, it remains unclear how to apply such methods to reason over long input documents, in which both the decomposition and the output of each intermediate step are non-trivial to obtain. In this work, we propose PEARL, a prompting framework to improve reasoning over long documents, which consists of three stages: action mining, plan formulation, and plan execution. More specifically, given a question about a long document, PEARL decomposes the question into a sequence of actions (e.g., SUMMARIZE, FIND_EVENT, FIND_RELATION) and then executes them over the document to obtain the answer. Each stage of PEARL is implemented via zero-shot or few-shot prompting of LLMs (in our work, GPT-4) with minimal human input. We evaluate PEARL on a challenging subset of the QuALITY dataset, which contains questions that require complex reasoning over long narrative texts. PEARL outperforms zero-shot and chain-of-thought prompting on this dataset, and ablation experiments show that each stage of PEARL is critical to its performance. Overall, PEARL is a first step towards leveraging LLMs to reason over long documents.
Abstract（参考訳）: チェーンオブ思想のような戦略は、入力例を中間ステップに分解することで複雑な推論タスクにおける大規模言語モデル(LLM)の性能を向上させる。しかし、各中間ステップの分解と出力の両方を得るのが自明であるような、長い入力文書の推論にそのような方法を適用する方法はまだ不明である。本研究では, アクションマイニング, プラン定式化, 計画実行の3段階からなる, 長い文書に対する推論を改善するためのプロンプトフレームワークであるPEARLを提案する。より具体的には、長い文書に関する質問が与えられた場合、PEARLは質問を一連のアクション(例えば、SUMMARIZE、FIND_EVENT、FIND_relation)に分解し、文書上で実行して答えを得る。 PEARLの各ステージは、最小限の人間入力でLLMをゼロショットまたは少数ショットでプロンプトすることで実装される。 PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長文よりも複雑な推論を必要とする質問を含む。 PEARLは、このデータセット上でゼロショットやチェーンオブ思想よりも優れており、アブレーション実験により、PEARLの各ステージがそのパフォーマンスに重要であることが示されている。全体として、PEARLはLLMを活用して長いドキュメントを推論する最初のステップである。

関連論文リスト

Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
On the Reproducibility of Learned Sparse Retrieval Adaptations for Long Documents [2.186901738997927]
長い文書にLearned Sparse Retrieval(LSR)を適用するメカニズムを再現し検討する。実験の結果,文書検索性能は第1セグメントが支配的であり,各セグメントの重要性が確認された。提案手法であるExactSDMとSoftSDMを文書の長さによって再評価した。
論文参考訳（メタデータ） (2025-03-31T08:19:31Z)
A Comprehensive Survey on Long Context Language Modeling [118.5540791080351]
Long Context Language Models (LCLM) は、広範囲な入力を効果的かつ効率的に処理し、分析する。本調査は, LCLMの有効かつ効率的な利用方法, LCLMを効率的に訓練・展開する方法, LCLMを総合的に評価・分析する方法の3つの重要な側面から構成されている。
論文参考訳（メタデータ） (2025-03-20T17:06:28Z)
Zero-Shot Keyphrase Generation: Investigating Specialized Instructions and Multi-Sample Aggregation on Large Language Models [52.829293635314194]
キーフレーズ生成(英: Keyphrase generation)とは、ある文書のキーフレーズを自動的に生成する、長期にわたるNLPタスクである。本稿では,オープンソースの命令調整型LDM (Phi-3, Llama-3) のゼロショット機能と,このタスクのためのクローズドソース GPT-4o に着目した。
論文参考訳（メタデータ） (2025-03-01T19:38:57Z)
HERA: Improving Long Document Summarization using Large Language Models with Context Packaging and Reordering [6.876612430571396]
HERAと呼ばれる新しい要約生成フレームワークを提案する。まず、その意味構造によって長い文書をセグメンテーションし、同じ事象に関するテキストセグメントを検索し、最後にそれらを並べ替えて入力コンテキストを形成する。実験の結果,HERAはROUGE,BERTScore,忠実度測定において基礎モデルよりも優れていた。
論文参考訳（メタデータ） (2025-02-01T14:55:06Z)
Graph-DPEP: Decomposed Plug and Ensemble Play for Few-Shot Document Relation Extraction with Graph-of-Thoughts Reasoning [34.85741925091139]
Graph-DPEPフレームワークは、自然言語で提示された三重項の説明思想の背景にある。我々は,サブグラフに埋め込まれた推論的思考を活用することで,型リスト全体の「アンサンブルプレイ」生成を開発する。
論文参考訳（メタデータ） (2024-11-05T07:12:36Z)
LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文参考訳（メタデータ） (2024-10-12T03:13:44Z)
Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文参考訳（メタデータ） (2024-10-08T17:02:40Z)
Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。 EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文参考訳（メタデータ） (2024-08-28T13:52:19Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization [7.674972936853123]
我々は,同一の入力コンテキストに対するクエリを1つのプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える方法が,要約の達成に有効かどうかを検討する。予測フォーマットでの応答生成における100%の信頼性は、通常、特定のクローズドソース LLM に制限される。
論文参考訳（メタデータ） (2024-02-29T19:00:47Z)
Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文参考訳（メタデータ） (2024-02-26T20:33:50Z)
ADaPT: As-Needed Decomposition and Planning with Language Models [131.063805299796]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。 ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。以上の結果から,ADaPTは強いベースラインを確立した。
論文参考訳（メタデータ） (2023-11-08T17:59:15Z)
Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。 LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-10-16T06:19:54Z)
CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文参考訳（メタデータ） (2021-09-10T03:23:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。