論文の概要: FinTextQA: A Dataset for Long-form Financial Question Answering
- arxiv url: http://arxiv.org/abs/2405.09980v1
- Date: Thu, 16 May 2024 10:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:31:57.708045
- Title: FinTextQA: A Dataset for Long-form Financial Question Answering
- Title(参考訳): FinTextQA: ロングフォームな財務質問応答のためのデータセット
- Authors: Jian Chen, Peilin Zhou, Yining Hua, Yingxin Loh, Kehui Chen, Ziyuan Li, Bing Zhu, Junwei Liang,
- Abstract要約: FinTextQAは金融における長文質問応答(LFQA)のための新しいデータセットである。
我々のデータセット上で最も効果的なシステム構成は、組込み器、レトリバー、リランカー、ジェネレータをAda2、Automated Merged Retrieval、Bge-Reranker-Base、Baichuan2-7Bとして設定することであった。
- 参考スコア(独自算出の注目度): 10.1084081290893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate evaluation of financial question answering (QA) systems necessitates a comprehensive dataset encompassing diverse question types and contexts. However, current financial QA datasets lack scope diversity and question complexity. This work introduces FinTextQA, a novel dataset for long-form question answering (LFQA) in finance. FinTextQA comprises 1,262 high-quality, source-attributed QA pairs extracted and selected from finance textbooks and government agency websites.Moreover, we developed a Retrieval-Augmented Generation (RAG)-based LFQA system, comprising an embedder, retriever, reranker, and generator. A multi-faceted evaluation approach, including human ranking, automatic metrics, and GPT-4 scoring, was employed to benchmark the performance of different LFQA system configurations under heightened noisy conditions. The results indicate that: (1) Among all compared generators, Baichuan2-7B competes closely with GPT-3.5-turbo in accuracy score; (2) The most effective system configuration on our dataset involved setting the embedder, retriever, reranker, and generator as Ada2, Automated Merged Retrieval, Bge-Reranker-Base, and Baichuan2-7B, respectively; (3) models are less susceptible to noise after the length of contexts reaching a specific threshold.
- Abstract(参考訳): 金融質問応答(QA)システムの正確な評価は、多様な質問タイプやコンテキストを含む包括的なデータセットを必要とする。
しかし、現在の財務QAデータセットには、スコープの多様性と質問の複雑さが欠けている。
本研究は、金融における長文質問応答(LFQA)のための新しいデータセットであるFinTextQAを紹介する。
FinTextQA は 1,262 の高品質で,財務教科書や政府機関のウェブサイトから抽出・選択された質の高い QA ペアから構成される。さらに,我々は,組み込み,検索,再ランカ,ジェネレータを含む,RAG (Retrieval-Augmented Generation) ベースのLFQA システムを開発した。
ヒトのランキング、自動メトリクス、GPT-4スコアなどの多面的評価手法を用いて、ノイズの高い条件下での異なるLFQAシステム構成の性能をベンチマークした。
その結果, ベイチュアン2-7BはGPT-3.5-turboと精度スコアで密接に競合し, 2) 組込み器, 検索器, リランカー, ジェネレータをAda2, 自動マージ検索器, Bge-Reranker-Base, Baichuan2-7Bとして設定したデータセット上の最も効果的なシステム構成は, 特定のしきい値に達した後, ノイズの影響を受けにくい。
関連論文リスト
- SEC-QA: A Systematic Evaluation Corpus for Financial QA [12.279234447220155]
既存のデータセットは、多くの場合、サイズ、コンテキスト、実用的なアプリケーションとの関連性によって制約される。
2つの重要な特徴を持つ継続的データセット生成フレームワークであるSEC-QAを提案する。
本稿では,複雑な情報検索と定量的推論パイプラインの実行能力を向上させるプログラム・オブ・思想に基づくQAシステムを提案する。
論文 参考訳(メタデータ) (2024-06-20T15:12:41Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - PACIFIC: Towards Proactive Conversational Question Answering over
Tabular and Textual Data in Finance [96.06505049126345]
我々はPACIFICという新しいデータセットを提案する。既存のCQAデータセットと比較すると、PACIFICは(i)活動性、(ii)数値推論、(iii)表とテキストのハイブリッドコンテキストの3つの重要な特徴を示す。
質問生成とCQAを組み合わせたPCQA(Proactive Conversational Question Answering)に基づいて,新しいタスクを定義する。
UniPCQAはPCQAのすべてのサブタスク上でマルチタスク学習を行い、Seeq2Seqの上位$kのサンプルをクロスバリデーションすることで、マルチタスク学習におけるエラー伝搬問題を緩和するための単純なアンサンブル戦略を取り入れている。
論文 参考訳(メタデータ) (2022-10-17T08:06:56Z) - Improving Question Answering with Generation of NQ-like Questions [12.276281998447079]
QA ( Question Answering) システムは大量の注釈付きデータを必要とする。
本研究では,Quizbowl(QB)データセットの長いトリビア質問からNatural Questions(NQ)データセットにおいて,日々のコミュニケーションに似た短い質問を自動的に生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-12T21:36:20Z) - Uncertainty-Aware Text-to-Program for Question Answering on Structured
Electronic Health Records [8.272573489245717]
EHR-QAのためのプログラムベースモデル(NLQ2Program)を,今後の方向性に向けた第一歩として設計する。
グラフベースのEHR-QAデータセットであるMIMICSPARQL*に,プログラムベースのアプローチを半教師付き方式で取り組んだ。
信頼性の高い EHR-QA モデルに対して,不確実性分解法を適用し,入力問題におけるあいまいさを計測する。
論文 参考訳(メタデータ) (2022-03-14T08:12:16Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。