論文の概要: FinCPRG: A Bidirectional Generation Pipeline for Hierarchical Queries and Rich Relevance in Financial Chinese Passage Retrieval
- arxiv url: http://arxiv.org/abs/2508.02222v1
- Date: Mon, 04 Aug 2025 09:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.271765
- Title: FinCPRG: A Bidirectional Generation Pipeline for Hierarchical Queries and Rich Relevance in Financial Chinese Passage Retrieval
- Title(参考訳): FinCPRG:中国の金融パス検索における階層的クエリとリッチな関連性のための双方向生成パイプライン
- Authors: Xuan Xu, Beilin Chu, Qinhong Lin, Yixiao Zhong, Fufang Wen, Jiaqi Liu, Binjie Fei, Yu Li, Zhongliang Yang, Linna Zhou,
- Abstract要約: 本稿では,doc内およびクロスdoc内の両方のシナリオに対して,3段階の階層型クエリを生成することを目的とした双方向生成パイプラインを提案する。
我々は、約1.3万の中国の金融調査レポートから、金融パス検索検索データセットを構築した。
- 参考スコア(独自算出の注目度): 24.385110254247458
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, large language models (LLMs) have demonstrated significant potential in constructing passage retrieval datasets. However, existing methods still face limitations in expressing cross-doc query needs and controlling annotation quality. To address these issues, this paper proposes a bidirectional generation pipeline, which aims to generate 3-level hierarchical queries for both intra-doc and cross-doc scenarios and mine additional relevance labels on top of direct mapping annotation. The pipeline introduces two query generation methods: bottom-up from single-doc text and top-down from multi-doc titles. The bottom-up method uses LLMs to disassemble and generate structured queries at both sentence-level and passage-level simultaneously from intra-doc passages. The top-down approach incorporates three key financial elements--industry, topic, and time--to divide report titles into clusters and prompts LLMs to generate topic-level queries from each cluster. For relevance annotation, our pipeline not only relies on direct mapping annotation from the generation relationship but also implements an indirect positives mining method to enrich the relevant query-passage pairs. Using this pipeline, we constructed a Financial Passage Retrieval Generated dataset (FinCPRG) from almost 1.3k Chinese financial research reports, which includes hierarchical queries and rich relevance labels. Through evaluations of mined relevance labels, benchmarking and training experiments, we assessed the quality of FinCPRG and validated its effectiveness as a passage retrieval dataset for both training and benchmarking.
- Abstract(参考訳): 近年,大言語モデル (LLM) は,経路探索データセットの構築において重要な可能性を示している。
しかし、既存のメソッドは、クロスdocクエリの要求を表現したり、アノテーションの品質を制御したりする際の制限に直面している。
これらの問題に対処するため,本研究では,doc内およびdoc間の両方のシナリオに対して3段階の階層的クエリを生成し,直接マッピングアノテーション上に関連ラベルを追加することを目的とした双方向生成パイプラインを提案する。
このパイプラインでは、単一docテキストからのボトムアップとマルチdocタイトルからのトップダウンという、2つのクエリ生成方法が導入されている。
ボトムアップ方式では,LLMを用いて文レベルと文レベルの両方の構造化クエリを,doc内パスから同時に分解し,生成する。
トップダウンアプローチでは、インダストリー、トピック、タイムの3つの重要な財務要素が組み込まれており、レポートタイトルをクラスタに分割し、各クラスタからトピックレベルのクエリを生成するようにLLMに促している。
関連アノテーションの場合,パイプラインは生成関係からの直接マッピングアノテーションに依存するだけでなく,関連するクエリとパスのペアを豊かにする間接的なポジティクスマイニング手法を実装している。
このパイプラインを使用して、階層的なクエリと豊富な関連ラベルを含む約1.3kの中国の金融調査レポートから、FinCPRG(Financial Passage Retrieval Generated Data)を構築した。
マイニングされた関連ラベルの評価,ベンチマークおよびトレーニング実験を通じて,FinCPRGの品質を評価し,トレーニングとベンチマークの双方のためのパス検索データセットとしての有効性を検証した。
関連論文リスト
- Benchmarking Multimodal Understanding and Complex Reasoning for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。
本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - Improving Generated and Retrieved Knowledge Combination Through Zero-shot Generation [41.43397783169612]
オープンドメイン質問回答(QA)は,大規模言語モデル(LLM)による忠実に検索されたパスと関連するパスを組み合わせることで,かなりの関心を集めている。
これらの知識の源と組み合わせるための明確なラベルが不足している。
本稿では,検索したパスとLLM生成したパスの両方に対して,再格付け手法を利用したBi-Re rank for Merging Generated and Retrieved Knowledge (BRMGR)を提案する。
論文 参考訳(メタデータ) (2024-12-25T06:40:36Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - Harnessing Multi-Role Capabilities of Large Language Models for
Open-Domain Question Answering [40.2758450304531]
オープンドメイン質問応答 (ODQA) は情報システムにおいて重要な研究スポットライトとなっている。
本稿では,ODQA処理をクエリ拡張,文書選択,回答生成という3つの基本ステップに定式化するフレームワークを提案する。
我々は,ロールプレイングプロンプトを洗練するための新しいプロンプト最適化アルゴリズムを導入し,高品質なエビデンスと回答を生成する。
論文 参考訳(メタデータ) (2024-03-08T11:09:13Z) - Consistency Guided Knowledge Retrieval and Denoising in LLMs for
Zero-shot Document-level Relation Triplet Extraction [43.50683283748675]
文書レベルの関係トリプルト抽出(DocRTE)は、文書から意味的関係を持つエンティティを同時に抽出することを目的とした情報システムの基本課題である。
既存の手法は、かなりの量の完全なラベル付きデータに依存している。
ChatGPTやLLaMAのような最近の先進言語モデル(LLM)は、素晴らしい長文生成能力を示している。
論文 参考訳(メタデータ) (2024-01-24T17:04:28Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Document-Level Relation Extraction with Adaptive Thresholding and
Localized Context Pooling [34.93480801598084]
1つの文書は一般に複数のエンティティペアを含み、1つのエンティティペアは複数の可能な関係に関連付けられた文書に複数回発生する。
適応しきい値と局所化コンテキストプーリングという2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T20:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。