Fugu-MT 論文翻訳(概要): Drilling Down into the Discourse Structure with LLMs for Long Document Question Answering

論文の概要: Drilling Down into the Discourse Structure with LLMs for Long Document Question Answering

arxiv url: http://arxiv.org/abs/2311.13565v1
Date: Wed, 22 Nov 2023 18:22:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 14:16:53.565814
Title: Drilling Down into the Discourse Structure with LLMs for Long Document Question Answering
Title（参考訳）: LLMを用いた長期文書質問応答のための談話構造へのドリルダウン
Authors: Inderjeet Nair, Shwetha Somasundaram, Apoorv Saxena, Koustava Goswami
Abstract要約: 本稿では,文書に共通する談話構造を利用した一組の手法を提案する。複雑なマルチホップ質問応答において,我々のアプローチをテキスト自己認識推論エージェントと組み合わせて,最高のゼロショット性能を実現する方法を示す。
参考スコア（独自算出の注目度）: 5.022057415488129
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We address the task of evidence retrieval for long document question answering, which involves locating relevant paragraphs within a document to answer a question. We aim to assess the applicability of large language models (LLMs) in the task of zero-shot long document evidence retrieval, owing to their unprecedented performance across various NLP tasks. However, currently the LLMs can consume limited context lengths as input, thus providing document chunks as inputs might overlook the global context while missing out on capturing the inter-segment dependencies. Moreover, directly feeding the large input sets can incur significant computational costs, particularly when processing the entire document (and potentially incurring monetary expenses with enterprise APIs like OpenAI's GPT variants). To address these challenges, we propose a suite of techniques that exploit the discourse structure commonly found in documents. By utilizing this structure, we create a condensed representation of the document, enabling a more comprehensive understanding and analysis of relationships between different parts. We retain $99.6\%$ of the best zero-shot approach's performance, while processing only $26\%$ of the total tokens used by the best approach in the information seeking evidence retrieval setup. We also show how our approach can be combined with \textit{self-ask} reasoning agent to achieve best zero-shot performance in complex multi-hop question answering, just $\approx 4\%$ short of zero-shot performance using gold evidence.
Abstract（参考訳）: 我々は,文書内の関連する段落を検索して質問に回答することを含む,長文質問応答に対する証拠検索の課題に対処する。我々は,様々なnlpタスクにおける前例のない性能のため,ゼロショットの文書証拠検索タスクにおける大規模言語モデル(llm)の適用性を評価することを目的とした。しかし、現在LLMは、限られたコンテキスト長を入力として消費できるため、セグメント間の依存関係の取得に欠如しながら、インプットがグローバルコンテキストを見落としてしまう可能性があるため、ドキュメントチャンクを提供する。さらに、大きな入力セットを直接供給することで、特にドキュメント全体を処理する場合(OpenAIのGPT変種のようなエンタープライズAPIで金銭的費用がかかる可能性がある)、かなりの計算コストが発生する可能性がある。これらの課題に対処するために,文書で一般的に見られる談話構造を利用する手法のスイートを提案する。この構造を利用することで、文書の凝縮表現を作成し、異なる部分間の関係のより包括的な理解と分析を可能にする。我々は、最高のゼロショットアプローチのパフォーマンスの99.6\%を保ちながら、情報検索検索設定において、最良のアプローチで使用されるトークンの合計の26\%しか処理しない。また,本手法と<textit{self-ask}推論エージェントを併用して,複雑なマルチホップ質問応答において最高のゼロショット性能を実現し,金の証拠を用いたゼロショット性能を$$\approx 4\%$に短縮できることを示す。

関連論文リスト

M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。 M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文参考訳（メタデータ） (2025-03-27T07:28:32Z)
Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文参考訳（メタデータ） (2025-02-18T02:49:40Z)
Enhanced Retrieval of Long Documents: Leveraging Fine-Grained Block Representations with Large Language Models [24.02950598944251]
文書の関連性評価の精度を高めることを目的とした,新しい,きめ細かいアプローチを提案する。提案手法はまず,長い文書をブロックに分割し,それぞれを LLM を用いて埋め込む。重み付け和法により,クエリブロック関連度スコアを集約し,ドキュメント全体のクエリに対する総合的なスコアを得る。
論文参考訳（メタデータ） (2025-01-28T16:03:52Z)
GeAR: Generation Augmented Retrieval [82.20696567697016]
文書検索技術は大規模情報システム開発の基礎となる。一般的な手法は、バイエンコーダを構築し、セマンティックな類似性を計算することである。我々は、よく設計された融合およびデコードモジュールを組み込んだ $textbfGe$neration という新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-06T05:29:00Z)
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。 M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。 M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文参考訳（メタデータ） (2024-11-07T18:29:38Z)
LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文参考訳（メタデータ） (2024-10-12T03:13:44Z)
Refiner: Restructure Retrieval Content Efficiently to Advance Question-Answering Capabilities [30.1331670544648]
大規模言語モデル(LLM)はパラメトリックな知識によって制限され、知識集約的なタスクに幻覚をもたらす。我々は、RAGの検索後のプロセスで機能するエンドツーエンドの抽出・再構成パラダイムである$textitRefiner$を提案する。
論文参考訳（メタデータ） (2024-06-17T09:25:10Z)
Focus Anywhere for Fine-grained Multi-page Document Understanding [24.76897786595502]
本稿では,LVLMを単ページ/複数ページの文書に注目する上で,効果的パイプライン,ハイブリッドデータ,チューニング戦略であるFoxを提案する。我々は、複数の視覚語彙を用いて、インターリーブされた文書ページの視覚的ハイブリッド知識を抽出する。我々は、複数の視覚語彙と文書内図形理解の完全な反応を達成するために、複数の語彙間の視覚データを前景として描画する。
論文参考訳（メタデータ） (2024-05-23T08:15:49Z)
Can't Remember Details in Long Documents? You Need Some R&R [4.465645631325957]
2つの新しいプロンプトベースのメソッドを組み合わせた$textitR&R$を紹介します。リプロンプトでは、コンテクスト文書を通して定期的にプロンプト命令を繰り返す。 ICRでは、LSMに直接答えるように指示するのではなく、最上位の$k$パス番号を検索するように指示する。
論文参考訳（メタデータ） (2024-03-08T03:03:20Z)
In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文参考訳（メタデータ） (2023-10-16T17:57:12Z)
PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文参考訳（メタデータ） (2023-09-16T04:29:05Z)
PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents [78.27865456183397]
長い文書に対する推論を改善するためのフレームワークであるPEARLを提案する。 PEARLの各ステージは、最小限の人間の入力でゼロショットまたは少数ショットのプロンプトによって実装される。 PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長い物語テキストに対して複雑な推論を必要とする質問を含む。
論文参考訳（メタデータ） (2023-05-23T23:06:04Z)
Information Extraction from Documents: Question Answering vs Token Classification in real-world setups [0.0]
質問応答法と古典的トークン分類法を比較して,文書鍵情報抽出を行う。我々の研究は、クリーンで比較的短いエンティティを扱う場合、トークン分類に基づくアプローチを用いるのが最善であることを示した。
論文参考訳（メタデータ） (2023-04-21T14:43:42Z)
One-shot Key Information Extraction from Document with Deep Partial Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。 KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文参考訳（メタデータ） (2021-09-26T07:45:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。