論文の概要: Financial Report Chunking for Effective Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2402.05131v2
- Date: Sat, 10 Feb 2024 10:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 20:07:25.549841
- Title: Financial Report Chunking for Effective Retrieval Augmented Generation
- Title(参考訳): 効率的な検索増産のための財務報告チャンキング
- Authors: Antonio Jimeno Yepes, Yao You, Jan Milczek, Sebastian Laverde, and
Renyu Li
- Abstract要約: チャンキング情報は検索拡張生成(RAG)における重要なステップである
現在の研究は主に段落レベルのチャンキングに焦点を当てている。
本稿では,文書の構造的要素によって,単に段落レベルのチャンクを超えて文書をチャンクし,文書をチャンクするアプローチを提案する。
- 参考スコア(独自算出の注目度): 2.6680382112425374
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Chunking information is a key step in Retrieval Augmented Generation (RAG).
Current research primarily centers on paragraph-level chunking. This approach
treats all texts as equal and neglects the information contained in the
structure of documents. We propose an expanded approach to chunk documents by
moving beyond mere paragraph-level chunking to chunk primary by structural
element components of documents. Dissecting documents into these constituent
elements creates a new way to chunk documents that yields the best chunk size
without tuning. We introduce a novel framework that evaluates how chunking
based on element types annotated by document understanding models contributes
to the overall context and accuracy of the information retrieved. We also
demonstrate how this approach impacts RAG assisted Question & Answer task
performance. Our research includes a comprehensive analysis of various element
types, their role in effective information retrieval, and the impact they have
on the quality of RAG outputs. Findings support that element type based
chunking largely improve RAG results on financial reporting. Through this
research, we are also able to answer how to uncover highly accurate RAG.
- Abstract(参考訳): チャンキング情報は、検索拡張生成(RAG)の重要なステップである。
現在の研究は主に段落レベルのチャンキングに焦点を当てている。
このアプローチは全てのテキストを等しく扱い、文書の構造に含まれる情報を無視する。
本稿では,文書の構造的要素によって,単に段落レベルのチャンクを超えて文書をチャンクする手法を提案する。
これらの構成要素に文書を分割すると、チューニングせずに最高のチャンクサイズとなる文書をチャンクする新しい方法が生成される。
本稿では,文書理解モデルによって注釈付けされた要素タイプに基づくチャンキングが,検索した情報の全体的なコンテキストと精度にどのように貢献するかを評価する新しいフレームワークを提案する。
また、このアプローチがRAG支援質問&回答タスクのパフォーマンスにどのように影響するかを示す。
本研究は, 各種要素の包括的分析, 有効情報検索における役割, RAG出力の品質への影響について検討した。
要素タイプベースのチャンキングのサポートを見つけることは、財務報告のRAG結果を大幅に改善します。
本研究により,高精度RAGの発見方法についても答えることができた。
関連論文リスト
- LLM-Ref: Enhancing Reference Handling in Technical Writing with Large Language Models [4.1180254968265055]
LLM-Refは、研究者が複数のソース文書から記事を書くのを補助する記述支援ツールである。
チャンキングとインデックスを使用する従来のRAGシステムとは異なり、私たちのツールはテキスト段落から直接コンテンツを検索し、生成します。
我々の手法は、RAGシステムの正確で関連性があり、文脈的に適切な応答を生成する能力の全体像を提供する総合的な指標である、Ragasスコアの3.25タイムから6.26タイムの上昇を達成する。
論文 参考訳(メタデータ) (2024-11-01T01:11:58Z) - LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - Enhanced document retrieval with topic embeddings [0.0]
文書検索システムは、検索強化世代(RAG)の出現にともなって、再活性化された関心を経験してきた。
RAGアーキテクチャはLLMのみのアプリケーションよりも幻覚率が低い。
我々は文書の話題情報を考慮した新しいベクトル化手法を考案した。
論文 参考訳(メタデータ) (2024-08-19T22:01:45Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Drilling Down into the Discourse Structure with LLMs for Long Document
Question Answering [5.022057415488129]
本稿では,文書に共通する談話構造を利用した一組の手法を提案する。
複雑なマルチホップ質問応答において,我々のアプローチをテキスト自己認識推論エージェントと組み合わせて,最高のゼロショット性能を実現する方法を示す。
論文 参考訳(メタデータ) (2023-11-22T18:22:56Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Bringing Structure into Summaries: a Faceted Summarization Dataset for
Long Scientific Documents [30.09742243490895]
FacetSumは、Emeraldのジャーナル記事上に構築された顔の要約ベンチマークである。
データセットの分析と実験結果から,構造を要約に組み込むことの重要性が明らかになった。
我々は、FacetSumが要約研究のさらなる進歩を促し、NLPシステムの開発を促進すると信じている。
論文 参考訳(メタデータ) (2021-05-31T22:58:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。