論文の概要: PEARL: Prompting Large Language Models to Plan and Execute Actions Over
Long Documents
- arxiv url: http://arxiv.org/abs/2305.14564v1
- Date: Tue, 23 May 2023 23:06:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 21:28:34.953469
- Title: PEARL: Prompting Large Language Models to Plan and Execute Actions Over
Long Documents
- Title(参考訳): pearl: 大きな言語モデルに長いドキュメントに対するアクションの計画と実行を促す
- Authors: Simeng Sun, Yang Liu, Shuohang Wang, Chenguang Zhu, Mohit Iyyer
- Abstract要約: 長い文書に対する推論を改善するためのフレームワークであるPEARLを提案する。
PEARLの各ステージは、最小限の人間の入力でゼロショットまたは少数ショットのプロンプトによって実装される。
PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長い物語テキストに対して複雑な推論を必要とする質問を含む。
- 参考スコア(独自算出の注目度): 78.27865456183397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Strategies such as chain-of-thought prompting improve the performance of
large language models (LLMs) on complex reasoning tasks by decomposing input
examples into intermediate steps. However, it remains unclear how to apply such
methods to reason over long input documents, in which both the decomposition
and the output of each intermediate step are non-trivial to obtain. In this
work, we propose PEARL, a prompting framework to improve reasoning over long
documents, which consists of three stages: action mining, plan formulation, and
plan execution. More specifically, given a question about a long document,
PEARL decomposes the question into a sequence of actions (e.g., SUMMARIZE,
FIND_EVENT, FIND_RELATION) and then executes them over the document to obtain
the answer. Each stage of PEARL is implemented via zero-shot or few-shot
prompting of LLMs (in our work, GPT-4) with minimal human input. We evaluate
PEARL on a challenging subset of the QuALITY dataset, which contains questions
that require complex reasoning over long narrative texts. PEARL outperforms
zero-shot and chain-of-thought prompting on this dataset, and ablation
experiments show that each stage of PEARL is critical to its performance.
Overall, PEARL is a first step towards leveraging LLMs to reason over long
documents.
- Abstract(参考訳): チェーンオブ思想のような戦略は、入力例を中間ステップに分解することで複雑な推論タスクにおける大規模言語モデル(LLM)の性能を向上させる。
しかし、各中間ステップの分解と出力の両方を得るのが自明であるような、長い入力文書の推論にそのような方法を適用する方法はまだ不明である。
本研究では, アクションマイニング, プラン定式化, 計画実行の3段階からなる, 長い文書に対する推論を改善するためのプロンプトフレームワークであるPEARLを提案する。
より具体的には、長い文書に関する質問が与えられた場合、PEARLは質問を一連のアクション(例えば、SUMMARIZE、FIND_EVENT、FIND_relation)に分解し、文書上で実行して答えを得る。
PEARLの各ステージは、最小限の人間入力でLLMをゼロショットまたは少数ショットでプロンプトすることで実装される。
PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長文よりも複雑な推論を必要とする質問を含む。
PEARLは、このデータセット上でゼロショットやチェーンオブ思想よりも優れており、アブレーション実験により、PEARLの各ステージがそのパフォーマンスに重要であることが示されている。
全体として、PEARLはLLMを活用して長いドキュメントを推論する最初のステップである。
関連論文リスト
- Query-OPT: Optimizing Inference of Large Language Models via Multi-Query
Instructions in Meeting Summarization [8.234063663233595]
我々は,同一の入力コンテキストに対するクエリをひとつのプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える方法が,要約に有効かどうかを検討する。
ほとんどのLLMはマルチクエリの命令に応答する傾向にあるが、そのほとんど全てが要求された出力形式で応答を適切に生成できなかった。
論文 参考訳(メタデータ) (2024-02-29T19:00:47Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - ULTRA: Unleash LLMs' Potential for Event Argument Extraction through
Hierarchical Modeling and Pair-wise Refinement [6.39480325103865]
イベント引数抽出(EAE)は、あるイベントのロール固有のテキストスパン(例えば、引数)を特定するタスクである。
本稿では,イベントの議論をよりコスト効率よく抽出する階層的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:13:28Z) - ADaPT: As-Needed Decomposition and Planning with Language Models [136.70875041342686]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。
ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。
以上の結果から,ADaPTは強いベースラインを確立した。
論文 参考訳(メタデータ) (2023-11-08T17:59:15Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - ISR-LLM: Iterative Self-Refined Large Language Model for Long-Horizon
Sequential Task Planning [7.701407633867452]
大規模言語モデル(LLM)は、タスクに依存しないプランナとして一般化性を高める可能性を提供する。
ISR-LLMは,反復的な自己複製プロセスを通じてLCMに基づく計画を改善する新しいフレームワークである。
ISR-LLM は現状の LLM ベースのプランナに比べてタスク達成率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-08-26T01:31:35Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - Summ^N: A Multi-Stage Summarization Framework for Long Input Dialogues
and Documents [13.755637074366813]
SummNは、典型的な事前訓練されたLMの最大文脈長よりも長いテキストを入力するための、シンプルで柔軟で効果的な多段階フレームワークである。
LMコンテキストサイズを固定したままステージ数を調整することで任意の長さの入力テキストを処理できる。
実験の結果,SummNは従来の最先端手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-10-16T06:19:54Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。