論文の概要: Enabling and Analyzing How to Efficiently Extract Information from
Hybrid Long Documents with LLMs
- arxiv url: http://arxiv.org/abs/2305.16344v2
- Date: Thu, 7 Mar 2024 13:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 18:15:09.059791
- Title: Enabling and Analyzing How to Efficiently Extract Information from
Hybrid Long Documents with LLMs
- Title(参考訳): LLMを用いたハイブリッド長文書からの情報を効率的に抽出する方法の解明と解析
- Authors: Chongjian Yue, Xinrun Xu, Xiaojun Ma, Lun Du, Hengyu Liu, Zhiming
Ding, Yanbing Jiang, Shi Han, Dongmei Zhang
- Abstract要約: 本研究は,財務報告から重要な情報を理解するために,大規模言語モデルの可能性を活用することに焦点を当てる。
財務報告から情報を理解し抽出するLLMの能力を高める自動財務情報抽出フレームワークを提案する。
本フレームワークは, GPT-3.5とGPT-4で有効に検証され, 平均精度は53.94%, 33.77%向上した。
- 参考スコア(独自算出の注目度): 48.87627426640621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate exceptional performance in textual
understanding and tabular reasoning tasks. However, their ability to comprehend
and analyze hybrid text, containing textual and tabular data, remains
underexplored. In this research, we specialize in harnessing the potential of
LLMs to comprehend critical information from financial reports, which are
hybrid long-documents. We propose an Automated Financial Information Extraction
(AFIE) framework that enhances LLMs' ability to comprehend and extract
information from financial reports. To evaluate AFIE, we develop a Financial
Reports Numerical Extraction (FINE) dataset and conduct an extensive
experimental analysis. Our framework is effectively validated on GPT-3.5 and
GPT-4, yielding average accuracy increases of 53.94% and 33.77%, respectively,
compared to a naive method. These results suggest that the AFIE framework
offers accuracy for automated numerical extraction from complex, hybrid
documents.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト理解や表の推論タスクにおいて、例外的なパフォーマンスを示す。
しかし、テキストデータと表データを含むハイブリッドテキストを理解・分析する能力は未調査のままである。
本研究では,LLMの可能性を生かして,ハイブリッドな長期文書である財務報告から重要な情報を理解することを専門とする。
金融報告から情報を理解し抽出するLLMの能力を高めるための自動財務情報抽出(AFIE)フレームワークを提案する。
afieを評価するために,financial reports numerical extraction (fine)データセットを開発し,広範な実験分析を行う。
このフレームワークはgpt-3.5とgpt-4で効果的に検証され、naive法と比較して53.94%と33.77%の平均精度が向上した。
これらの結果は,afieフレームワークが複雑なハイブリッド文書からの自動数値抽出の精度を提供することを示唆している。
関連論文リスト
- The FinBen: An Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、金融分野におけるLLMの能力を徹底的に評価するために設計された、初めての包括的なオープンソース評価ベンチマークである。
FinBenは、23の財務タスクにわたる35のデータセットを含み、Cattell-Horn-Carroll理論にインスパイアされた3つの難易度に分類されている。
GPT-4, ChatGPT, そして最新のGeminiを含む15の代表的なLCMを評価した結果, 金融分野におけるその強みと限界についての知見が得られた。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - Towards reducing hallucination in extracting information from financial
reports using Large Language Models [1.2289361708127877]
本稿では,Large Language Models (LLMs) が業績報告書から効率的にかつ迅速に情報を抽出する方法を示す。
我々は,Q&Aシステム評価のための様々な客観的指標に基づいて,提案手法を使わずに,様々なLCMの結果を評価する。
論文 参考訳(メタデータ) (2023-10-16T18:45:38Z) - Mastering the Task of Open Information Extraction with Large Language
Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。
大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文 参考訳(メタデータ) (2023-10-16T17:11:42Z) - Data-Centric Financial Large Language Models [27.464319154543173]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。
我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-07T04:53:31Z) - Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - FOSA: Full Information Maximum Likelihood (FIML) Optimized
Self-Attention Imputation for Missing Data [2.658762712049704]
本研究では,FIML最適化自己注意(FOSA)フレームワークについて検討する。
FOSAは、FIML推定の強みと自己注意型ニューラルネットワークの能力とを両立させる。
我々の実証実験では、FOSAは、およそ40%のランダムな欠落であっても、常に満足できる予測を提供することがわかった。
論文 参考訳(メタデータ) (2023-08-23T19:01:17Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities
and Future Opportunities [68.86209486449924]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。
我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文 参考訳(メタデータ) (2023-05-22T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。