論文の概要: FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information
- arxiv url: http://arxiv.org/abs/2505.20650v1
- Date: Tue, 27 May 2025 02:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.368418
- Title: FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information
- Title(参考訳): FinTagging:金融情報の抽出と構造化のためのLLM対応ベンチマーク
- Authors: Yan Wang, Yang Ren, Lingfei Qian, Xueqing Peng, Keyi Wang, Yi Han, Dongji Feng, Xiao-Yang Liu, Jimin Huang, Qianqian Xie,
- Abstract要約: 大規模言語モデル(LLM)の構造化情報抽出とセマンティックアライメント機能を評価するために設計された最初のフルスコープテーブル対応ベンチマークであるFinTaggingを紹介する。
フラットなマルチクラス分類としてタグ付けを単純化し、物語テキストのみにフォーカスする以前のベンチマークとは異なり、FinTaggingはタグ付け問題を2つのサブタスクに分解する。
それは、事実を共同で抽出し、非構造化テキストと構造化テーブルの両方にわたる完全な10k以上の米国分類と整合させるモデルを必要とし、現実的できめ細かな評価を可能にする。
- 参考スコア(独自算出の注目度): 18.75906880569719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce FinTagging, the first full-scope, table-aware XBRL benchmark designed to evaluate the structured information extraction and semantic alignment capabilities of large language models (LLMs) in the context of XBRL-based financial reporting. Unlike prior benchmarks that oversimplify XBRL tagging as flat multi-class classification and focus solely on narrative text, FinTagging decomposes the XBRL tagging problem into two subtasks: FinNI for financial entity extraction and FinCL for taxonomy-driven concept alignment. It requires models to jointly extract facts and align them with the full 10k+ US-GAAP taxonomy across both unstructured text and structured tables, enabling realistic, fine-grained evaluation. We assess a diverse set of LLMs under zero-shot settings, systematically analyzing their performance on both subtasks and overall tagging accuracy. Our results reveal that, while LLMs demonstrate strong generalization in information extraction, they struggle with fine-grained concept alignment, particularly in disambiguating closely related taxonomy entries. These findings highlight the limitations of existing LLMs in fully automating XBRL tagging and underscore the need for improved semantic reasoning and schema-aware modeling to meet the demands of accurate financial disclosure. Code is available at our GitHub repository and data is at our Hugging Face repository.
- Abstract(参考訳): 我々は、XBRLに基づく財務報告の文脈において、大規模言語モデル(LLM)の構造的情報抽出と意味的アライメント能力を評価するために設計された、最初のフルスコープのテーブル対応XBRLベンチマークであるFinTaggingを紹介する。
XBRLタグをフラットなマルチクラス分類として単純化し、物語テキストのみにフォーカスする以前のベンチマークとは異なり、FinTaggingはXBRLタグ問題を2つのサブタスクに分解する。
事実を共同で抽出し、非構造化テキストと構造化テーブルの両方にわたる完全な10k以上の米国-GAAP分類と整合させることで、現実的できめ細かな評価を可能にします。
我々は,ゼロショット設定下での多種多様なLLMの評価を行い,サブタスクと全体的なタグ付け精度の両方において,その性能を体系的に分析した。
以上の結果から, LLMは情報抽出において強い一般化を示す一方で, 微細な概念の整合性, 特に近縁な分類項目の曖昧化に苦慮していることが明らかとなった。
これらの知見は、XBRLタグの完全自動化における既存のLLMの限界を浮き彫りにし、正確な財務開示の要求を満たすために、意味論的推論とスキーマ対応モデリングの改善の必要性を浮き彫りにした。
コードはGitHubリポジトリで、データはHugging Faceリポジトリで利用可能です。
関連論文リスト
- Structure First, Reason Next: Enhancing a Large Language Model using Knowledge Graph for Numerical Reasoning in Financial Documents [0.21485350418225244]
大規模言語モデル(LLM)は、複数のQ-Aシステムにおいて有望な結果を示している。
知識グラフ(KG)のような構造化データ拡張は、LSMの予測を著しく改善した。
本稿では,KGを用いた構造化情報と,数値推論タスクのためのLLM予測を併用するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-12T17:39:08Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs [40.216867348210265]
FinAuditingは、財務監査タスクを評価するための最初の分類基準であり、構造を意識したマルチドキュメントのベンチマークである。
本物のアメリカ製である。
FinAuditingは3つの補完的なサブタスク、セマンティック一貫性のためのFinSM、リレーショナル一貫性のためのFinRE、数値一貫性のためのFinMRを定義している。
13の最先端のLCMに関する大規模なゼロショット実験は、現在のモデルが意味論、関係論、数学的次元で矛盾なく機能することを明らかにする。
論文 参考訳(メタデータ) (2025-10-10T00:41:55Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - FAITH: A Framework for Assessing Intrinsic Tabular Hallucinations in finance [0.06597195879147556]
金融に大規模言語モデル(LLM)をデプロイする上で、幻覚は依然として重要な課題である。
金融LLMにおける内因性幻覚を評価するための厳密でスケーラブルなフレームワークを開発する。
私たちの仕事は、より信頼性が高く信頼性の高い財務生成AIシステムを構築するための重要なステップとして役立ちます。
論文 参考訳(メタデータ) (2025-08-07T09:37:14Z) - Fine-Tuning Vision-Language Models for Markdown Conversion of Financial Tables in Malaysian Audited Financial Reports [0.0]
本稿ではQwen2.5-VL-7Bに基づく微調整視覚言語モデル(VLM)を提案する。
提案手法には,拡大した2,152枚の画像テキストペアをキュレートしたデータセットと,LoRAを用いた教師付き微調整戦略が含まれる。
基準に基づく評価では92.20%の精度と96.53%のTEDSスコアが得られた。
論文 参考訳(メタデータ) (2025-08-04T04:54:00Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application [118.63802040274999]
MultiFinBen は、現実的な財務状況下で LLM を評価するための、最初のエキスパートアノテーション付き多言語(5言語)およびマルチモーダルベンチマークである。
財務理由付けテストは、書類やニュースと統合された言語間のエビデンスと、スキャンされた文書から構造化されたテキストを抽出する財務OCRである。
21個のLLMを評価したところ、GPT-4oのようなフロンティアのマルチモーダルモデルでさえ、視力とオーディオが強く、多言語設定では急激に低下するが、全体の46.01%しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - Representation Learning of Limit Order Book: A Comprehensive Study and Benchmarking [3.94375691568608]
限界秩序書(LOB)は市場ダイナミクスの詳細なビューを提供する。
既存のアプローチはしばしば、エンド・ツー・エンドの方法で特定の下流タスクによる表現学習を密に結合する。
我々は、実際の中国のAシェア市場データを標準化したベンチマークであるLOBenchを紹介し、キュレートされたデータセット、統一された前処理、一貫した評価指標、強力なベースラインを提供する。
論文 参考訳(メタデータ) (2025-05-04T15:00:00Z) - HiFi-KPI: A Dataset for Hierarchical KPI Extraction from Earnings Filings [42.63642722062992]
階層型金融鍵性能指標(HiFi-KPI)データセットを紹介する。
本手法は分類に基づくグループ化手法を用いて218,126のラベル階層を編成する。
また、4つの専門家マップ付きラベルを持つ手作業でキュレートされたサブセットであるHiFi-KPI Liteをリリースする。
論文 参考訳(メタデータ) (2025-02-21T12:19:08Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - KG-CF: Knowledge Graph Completion with Context Filtering under the Guidance of Large Language Models [55.39134076436266]
KG-CFはランキングベースの知識グラフ補完タスクに適したフレームワークである。
KG-CFは、LLMの推論能力を活用して、無関係なコンテキストをフィルタリングし、現実世界のデータセットで優れた結果を得る。
論文 参考訳(メタデータ) (2025-01-06T01:52:15Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - NIFTY Financial News Headlines Dataset [14.622656548420073]
NIFTY Financial News Headlines データセットは,大規模言語モデル(LLM)を用いた金融市場予測の促進と進展を目的としている。
i) LLMの教師付き微調整(SFT)を目標とするNIFTY-LMと、(ii) NIFTY-RLと、(人からのフィードバックからの強化学習のような)アライメントメソッドに特化してフォーマットされたNIFTY-RLの2つの異なるモデルアプローチで構成されている。
論文 参考訳(メタデータ) (2024-05-16T01:09:33Z) - Parameter-Efficient Instruction Tuning of Large Language Models For Extreme Financial Numeral Labelling [29.84946857859386]
本稿では,財務文書に発生する関連する数字を対応するタグで自動的に注釈付けする問題について検討する。
本稿では,LoRAを用いたタスクに対するパラメータ効率のよい解を提案する。
提案するモデルであるFLAN-FinXCは、両方のデータセット上で新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-03T16:41:36Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Data-Centric Financial Large Language Models [27.464319154543173]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。
我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-07T04:53:31Z) - Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。