論文の概要: HiFi-KPI: A Dataset for Hierarchical KPI Extraction from Earnings Filings
- arxiv url: http://arxiv.org/abs/2502.15411v1
- Date: Fri, 21 Feb 2025 12:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:08.387424
- Title: HiFi-KPI: A Dataset for Hierarchical KPI Extraction from Earnings Filings
- Title(参考訳): HiFi-KPI:耳栓から階層的なKPI抽出のためのデータセット
- Authors: Rasmus Aavang, Giovanni Rizzi, Rasmus Bøggild, Alexandre Iolov, Mike Zhang, Johannes Bjerva,
- Abstract要約: 階層型金融鍵性能指標(HiFi-KPI)データセットを紹介する。
HiFi-KPIは、構造化されていない財務文書から特定の粒度の数値抽出を容易にするように設計されている。
HiFi-KPI Liteは4つの専門家マップ付きラベルで手作業でキュレートされたサブセットです。
- 参考スコア(独自算出の注目度): 42.63642722062992
- License:
- Abstract: The U.S. Securities and Exchange Commission (SEC) requires that public companies file financial reports tagging numbers with the machine readable inline eXtensible Business Reporting Language (iXBRL) standard. However, the highly complex and highly granular taxonomy defined by iXBRL limits label transferability across domains. In this paper, we introduce the Hierarchical Financial Key Performance Indicator (HiFi-KPI) dataset, designed to facilitate numerical KPI extraction at specified levels of granularity from unstructured financial text. Our approach organizes a 218,126-label hierarchy using a taxonomy based grouping method, investigating which taxonomy layer provides the most meaningful structure. HiFi-KPI comprises ~1.8M paragraphs and ~5M entities, each linked to a label in the iXBRL-specific calculation and presentation taxonomies. We provide baselines using encoder-based approaches and structured extraction using Large Language Models (LLMs). To simplify LLM inference and evaluation, we additionally release HiFi-KPI Lite, a manually curated subset with four expert-mapped labels. We publicly release all artifacts
- Abstract(参考訳): 米国証券取引委員会(SEC)は、公開企業が機械読み取り可能なeXtensible Business Reporting Language (iXBRL)標準で番号をタグ付けした財務報告を提出することを要求する。
しかし、iXBRLによって定義される非常に複雑で粒度の細かい分類法は、ドメイン間のラベル転送可能性を制限する。
本稿では,階層型金融鍵性能指標(HiFi-KPI)データセットについて紹介する。
本手法は分類に基づくグループ化手法を用いて218,126のラベル階層を編成し,どの分類層が最も有意義な構造を提供するかを検討した。
HiFi-KPI は ~1.8M の段落と ~5M の実体から構成され、それぞれが iXBRL 固有の計算と表出分類のラベルにリンクしている。
エンコーダベースのアプローチとLarge Language Models (LLM)を用いた構造化抽出を用いてベースラインを提供する。
LLM推論と評価を簡略化するために,4つの専門家マップ付きラベルを持つ手作業でキュレートされたサブセットであるHiFi-KPI Liteを新たにリリースする。
すべてのアーティファクトを公開します
関連論文リスト
- SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - TnT-LLM: Text Mining at Scale with Large Language Models [24.731544646232962]
大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
論文 参考訳(メタデータ) (2024-03-18T18:45:28Z) - Using Zero-shot Prompting in the Automatic Creation and Expansion of
Topic Taxonomies for Tagging Retail Banking Transactions [0.0]
本研究は、命令ベース微調整LDMを用いたトピックの構築と拡張のための教師なし手法を提案する(大規模言語モデル)。
既存の分類を新しい用語で拡張するために、ゼロショットプロンプトを使用して、新しいノードを追加する場所を見つける。
得られたタグを使って、小売銀行のデータセットから商人を特徴づけるタグを割り当てます。
論文 参考訳(メタデータ) (2024-01-08T00:27:16Z) - Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation [2.024620791810963]
本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
論文 参考訳(メタデータ) (2023-09-21T13:45:32Z) - Financial Numeric Extreme Labelling: A Dataset and Benchmarking for XBRL
Tagging [23.01422165679548]
米国証券取引委員会(SEC)は、すべての公社に対し、分類学の特定のラベルの数字を含むべき定期的な財務声明を提出するよう命令している。
非常に大きなラベル集合から文中の特定の数字スパンに対するラベルのタスクを定式化するタスクを定式化する。
論文 参考訳(メタデータ) (2023-06-06T14:41:30Z) - End-to-End Learning to Index and Search in Large Output Spaces [95.16066833532396]
Extreme Multi-label Classification (XMC) は現実世界の問題を解決するための一般的なフレームワークである。
本稿では,木系インデックスを特殊重み付きグラフベースインデックスに緩和する新しい手法を提案する。
ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-16T01:34:17Z) - Seeded Hierarchical Clustering for Expert-Crafted Taxonomies [48.10324642720299]
ラベルなしコーパスを適合させる弱教師付きアルゴリズムであるHierSeedを提案する。
それはデータと効率の両方です。
SHCタスクの教師なしベースラインと教師なしベースラインの両方を3つの実世界のデータセットで上回る。
論文 参考訳(メタデータ) (2022-05-23T19:58:06Z) - DECAF: Deep Extreme Classification with Label Features [9.768907751312396]
極端なマルチラベル分類(XML)では、非常に大きなラベルセットから最も関連性の高いラベルのサブセットにデータポイントをタグ付けする。
リードXMLアルゴリズムは数百万のラベルにスケールするが、ラベルのテキスト記述のようなラベルメタデータは無視される。
本稿では,ラベルメタデータに富んだ学習モデルを用いて,これらの課題に対処するDECAFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-08-01T05:36:05Z) - HTCInfoMax: A Global Model for Hierarchical Text Classification via
Information Maximization [75.45291796263103]
階層的テキスト分類のための現在の最新モデルHiAGMには2つの制限がある。
関連しない情報を含むデータセット内のすべてのラベルと、各テキストサンプルを関連付ける。
2つのモジュールを含む情報を導入することで、これらの問題に対処するHTCInfoMaxを提案します。
論文 参考訳(メタデータ) (2021-04-12T06:04:20Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。