論文の概要: Optimizing Retrieval Strategies for Financial Question Answering Documents in Retrieval-Augmented Generation Systems
- arxiv url: http://arxiv.org/abs/2503.15191v1
- Date: Wed, 19 Mar 2025 13:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 17:45:40.96587
- Title: Optimizing Retrieval Strategies for Financial Question Answering Documents in Retrieval-Augmented Generation Systems
- Title(参考訳): 検索型生成システムにおける財務質問応答文書の検索戦略の最適化
- Authors: Sejong Kim, Hyunseo Song, Hyunwoo Seo, Hyunjun Kim,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を緩和するための有望なフレームワークとして登場した。
本研究では,財務文書の検索を効率化する,効率的なエンドツーエンドRAGパイプラインを提案する。
- 参考スコア(独自算出の注目度): 5.712288463584192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as a promising framework to mitigate hallucinations in Large Language Models (LLMs), yet its overall performance is dependent on the underlying retrieval system. In the finance domain, documents such as 10-K reports pose distinct challenges due to domain-specific vocabulary and multi-hierarchical tabular data. In this work, we introduce an efficient, end-to-end RAG pipeline that enhances retrieval for financial documents through a three-phase approach: pre-retrieval, retrieval, and post-retrieval. In the pre-retrieval phase, various query and corpus preprocessing techniques are employed to enrich input data. During the retrieval phase, we fine-tuned state-of-the-art (SOTA) embedding models with domain-specific knowledge and implemented a hybrid retrieval strategy that combines dense and sparse representations. Finally, the post-retrieval phase leverages Direct Preference Optimization (DPO) training and document selection methods to further refine the results. Evaluations on seven financial question answering datasets-FinDER, FinQABench, FinanceBench, TATQA, FinQA, ConvFinQA, and MultiHiertt-demonstrate substantial improvements in retrieval performance, leading to more accurate and contextually appropriate generation. These findings highlight the critical role of tailored retrieval techniques in advancing the effectiveness of RAG systems for financial applications. A fully replicable pipeline is available on GitHub: https://github.com/seohyunwoo-0407/GAR.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) における幻覚を緩和するための有望なフレームワークとして登場したが、全体的な性能は基盤となる検索システムに依存している。
金融分野において、10-Kレポートのような文書は、ドメイン固有の語彙と多階層的な表型データのために、異なる課題を提起する。
本研究では,検索前,検索後,検索後という3段階のアプローチにより,財務文書の検索を効率化する,効率的なエンドツーエンドRAGパイプラインを提案する。
検索前の段階では、入力データを強化するために様々なクエリとコーパス前処理技術が使用される。
検索期間中、我々はドメイン固有の知識とSOTA(State-of-the-art)埋め込みモデルを微調整し、密度とスパース表現を組み合わせたハイブリッド検索戦略を実装した。
最後に、検索後のフェーズでは、DPO(Direct Preference Optimization)トレーニングと文書選択手法を活用して結果をさらに洗練する。
FinDER, FinQABench, FinanceBench, TATQA, FinQA, ConvFinQA, MultiHiertt-demonstrateの7つの財務質問応答データセットの評価により, 検索性能が大幅に向上し, より正確で適切な生成が可能となった。
これらの知見は,RAGシステムの有効性向上における適合検索技術の重要性を浮き彫りにしている。
完全なレプリカブルパイプラインはGitHubで公開されている。
関連論文リスト
- RouteRAG: Efficient Retrieval-Augmented Generation from Text and Graph via Reinforcement Learning [69.87510139069218]
Retrieval-Augmented Generation (RAG)は、非パラメトリック知識をLarge Language Models (LLM)に統合する
強化学習(RL)による多ターン推論へのテキストベースRAGの進歩
LLMがマルチターンおよび適応的なグラフテキストハイブリッドRAGを実現するためのRLベースのフレームワークであるモデルを導入する。
論文 参考訳(メタデータ) (2025-12-10T10:05:31Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - Metadata-Driven Retrieval-Augmented Generation for Financial Question Answering [0.0]
文脈的にリッチなドキュメントチャンクを作成するための高度なインデックスパイプラインを導入します。
我々は、検索前フィルタリング、検索後再ランク付け、エンリッチな埋め込みなど、さまざまな拡張のスペクトルをベンチマークする。
提案する最適アーキテクチャは、LLM駆動の事前検索最適化とコンテキスト埋め込みを組み合わせることで、優れた性能を実現する。
論文 参考訳(メタデータ) (2025-10-28T13:16:36Z) - Query Decomposition for RAG: Balancing Exploration-Exploitation [83.79639293409802]
RAGシステムは複雑なユーザ要求に対処し、それらをサブクエリに分解し、それぞれに関連する可能性のあるドキュメントを取得し、それを集約して回答を生成する。
クエリの分解とドキュメントの検索をエクスプロレーション探索設定で定式化し、一度に1つのドキュメントを検索すると、与えられたサブクエリの有用性についての信念が構築される。
我々の主な発見は、ランク情報と人的判断を用いた文書関連性の推定により、文書レベルの精度が35%向上し、α-nDCGが15%向上し、長文生成の下流タスクの性能が向上するということである。
論文 参考訳(メタデータ) (2025-10-21T13:37:11Z) - Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation [72.34977512403643]
Retrieval-Augmented Generation (RAG) は、外部コーパスから関連文書を取得することで、大規模言語モデル(LLM)を強化するための強力なパラダイムとして登場した。
既存のRAGシステムは、主に平凡なテキスト文書に焦点を当てており、クエリとドキュメントの両方が(テキストや画像のような)混合モダリティを含む実世界のシナリオでは、しばしば不足している。
我々は,Universal Retrieval-Augmented Generationシナリオに適した混合モーダル-混合モーダルレトリバーであるNyxを提案する。
論文 参考訳(メタデータ) (2025-10-20T09:56:43Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - FinGEAR: Financial Mapping-Guided Enhanced Answer Retrieval [8.717064717809974]
FinGEAR (Financial Mapping-Guided Enhanced Answer Retrieval) は、金融文書に適した検索フレームワークである。
検索を開示構造と用語に整合させ、きめ細かいクエリ対応コンテキスト選択を可能にする。
F1は平坦なRAGで56.7%、グラフベースのRAGで12.5%、以前のツリーベースのシステムで217.6%向上している。
論文 参考訳(メタデータ) (2025-09-15T15:25:26Z) - Generalized Reinforcement Learning for Retriever-Specific Query Rewriter with Unstructured Real-World Documents [4.200973008100858]
textbfRL-QRは、レトリバー固有のクエリ書き換えのための強化学習フレームワークである。
RL-QRは、特定のレトリバー用に調整されたクエリリライトを訓練し、さまざまなドメインにわたる検索性能を向上する。
以上の結果から, RL-QRがRAGシステムのクエリ最適化に革命をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-31T04:55:21Z) - FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [63.55583665003167]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z) - FinSage: A Multi-aspect RAG System for Financial Filings Question Answering [7.581619443736712]
FinSageはマルチモーダルな事前処理パイプラインで、多様なデータフォーマットを統一し、メタデータの要約を生成する。
実験の結果、FinSageは75人の専門家による質問に対して92.51%の印象的なリコールを達成した。
FinSageは、すでに1200人以上が利用しているオンラインミーティングにおいて、財務的な質問応答エージェントとして成功している。
論文 参考訳(メタデータ) (2025-04-20T04:58:14Z) - MultiConIR: Towards multi-condition Information Retrieval [57.6405602406446]
我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。
本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Enhancing Financial Time-Series Forecasting with Retrieval-Augmented Large Language Models [29.769616823587594]
金融時系列予測に特化して設計された最初の検索拡張世代(RAG)フレームワークを提案する。
フレームワークには3つの重要なイノベーションが含まれている: 微調整された1B大言語モデル(StockLLM)をバックボーンとし、LSMフィードバックによって拡張された新しい候補選択方法と、クエリと歴史的に重要なシーケンスとの類似性を最大化するトレーニング目標である。
論文 参考訳(メタデータ) (2025-02-09T12:26:05Z) - GeAR: Generation Augmented Retrieval [82.20696567697016]
文書検索技術は大規模情報システム開発の基礎となる。
一般的な手法は、バイエンコーダを構築し、セマンティックな類似性を計算することである。
我々は、よく設計された融合およびデコードモジュールを組み込んだ $textbfGe$neration という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - Adapting to Non-Stationary Environments: Multi-Armed Bandit Enhanced Retrieval-Augmented Generation on Knowledge Graphs [23.357843519762483]
近年の研究では、検索-拡張生成フレームワークと知識グラフを組み合わせることで、大規模言語モデルの推論能力を強力に向上することが示されている。
我々は多目的帯域拡張RAGフレームワークを導入し、多様な機能を持つ複数の検索手法をサポートする。
本手法は,定常環境下での最先端性能を達成しつつ,非定常環境でのベースライン手法を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-10T15:56:03Z) - Multi-Reranker: Maximizing performance of retrieval-augmented generation in the FinanceRAG challenge [5.279257531335345]
本稿では,ACM-ICAIF '24 FinanceRAGコンペティションのための,高性能で財務特化度の高いRetrieval-Augmented Generation(RAG)システムの開発について述べる。
我々は,検索前段階におけるクエリ拡張とコーパスの洗練に関するアブレーション研究を通じて,性能を最適化した。
特に,生成フェーズの長いコンテキストサイズを管理するための効率的な手法を導入し,性能を犠牲にすることなく応答品質を大幅に改善した。
論文 参考訳(メタデータ) (2024-11-23T09:56:21Z) - SEC-QA: A Systematic Evaluation Corpus for Financial QA [12.279234447220155]
既存のデータセットは、多くの場合、サイズ、コンテキスト、実用的なアプリケーションとの関連性によって制約される。
2つの重要な特徴を持つ継続的データセット生成フレームワークであるSEC-QAを提案する。
本稿では,複雑な情報検索と定量的推論パイプラインの実行能力を向上させるプログラム・オブ・思想に基づくQAシステムを提案する。
論文 参考訳(メタデータ) (2024-06-20T15:12:41Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。