論文の概要: GRAB: A Risk Taxonomy--Grounded Benchmark for Unsupervised Topic Discovery in Financial Disclosures
- arxiv url: http://arxiv.org/abs/2509.21698v1
- Date: Thu, 25 Sep 2025 23:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.076823
- Title: GRAB: A Risk Taxonomy--Grounded Benchmark for Unsupervised Topic Discovery in Financial Disclosures
- Title(参考訳): GRAB:リスク分類-金融情報公開における教師なしトピック発見のためのベンチマーク
- Authors: Ying Li, Tiejun Ma,
- Abstract要約: 8,247件の書類から1.61万文の財務特化ベンチマークであるGRABを提示する。
ラベルは5つのマクロクラスの下にネストされた21のきめ細かいタイプに193の用語をマッピングするリスク分類に固定されている。
- 参考スコア(独自算出の注目度): 7.099276510362394
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Risk categorization in 10-K risk disclosures matters for oversight and investment, yet no public benchmark evaluates unsupervised topic models for this task. We present GRAB, a finance-specific benchmark with 1.61M sentences from 8,247 filings and span-grounded sentence labels produced without manual annotation by combining FinBERT token attention, YAKE keyphrase signals, and taxonomy-aware collocation matching. Labels are anchored in a risk taxonomy mapping 193 terms to 21 fine-grained types nested under five macro classes; the 21 types guide weak supervision, while evaluation is reported at the macro level. GRAB unifies evaluation with fixed dataset splits and robust metrics--Accuracy, Macro-F1, Topic BERTScore, and the entropy-based Effective Number of Topics. The dataset, labels, and code enable reproducible, standardized comparison across classical, embedding-based, neural, and hybrid topic models on financial disclosures.
- Abstract(参考訳): 10-Kリスク開示におけるリスク分類は、監視と投資に関する問題であるが、このタスクに対する教師なしのトピックモデルを評価する公開ベンチマークは存在しない。
我々は,FinBERTトークンの注意,YAKEキーフレーズ信号,分類対応のコロケーションマッチングを組み合わせることで,8,247件の文書から1.61万文を抽出し,手動によるアノテーションを伴わないスパングラウンド文ラベルを作成した。
ラベルは5つのマクロクラスの下に営巣された21のきめ細かいタイプに193の用語でマッピングされ、21のタイプはマクロレベルでの評価を報告している。
GRABは、データセットの分割とロバストなメトリクス、-Accuracy、Macro-F1、Topic BERTScore、エントロピーベースの有効トピック数で評価を統合する。
データセット、ラベル、コードは、財務開示に関する古典的、埋め込みベースの、神経的、ハイブリッドなトピックモデルに対する再現可能な、標準化された比較を可能にする。
関連論文リスト
- OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models [73.6716695218951]
Over-refusalは$textitover-refusal$として知られる現象で、T2Iモデルの実用性を減らす。
我々は,OVERT(textbfOVE$r-$textbfR$efusal evaluation on $textbfT$ext-to-image model)を提案する。
論文 参考訳(メタデータ) (2025-05-27T15:42:46Z) - CROC: Evaluating and Training T2I Metrics with Pseudo- and Human-Labeled Contrastive Robustness Checks [46.89839054706183]
CROC(Contrastive Robustness Checks)を提案する。
我々は100万以上の対照的なプロンプトイメージ対の擬似ラベル付きデータセットを生成する。
また、このデータセットを使ってCROCScoreをトレーニングしています。
論文 参考訳(メタデータ) (2025-05-16T14:39:44Z) - From Lazy to Prolific: Tackling Missing Labels in Open Vocabulary Extreme Classification by Positive-Unlabeled Sequence Learning [5.979699034554517]
Open-vocabulary Extreme Multi-label Classification (OXMC)は、従来のXMCを拡張し、ラベルセットが103ドルから1012ドルを超える予測を可能にする。
データアノテーションにおける自己選択バイアスは、トレーニングデータとテストデータの両方に重大な欠陥ラベルをもたらす。
本稿では OXMC をキーフレーズ生成タスクとして再構成する PUSL (Positive-Unlabeled Sequence Learning) を提案する。
論文 参考訳(メタデータ) (2024-08-16T19:10:48Z) - Consistent algorithms for multi-label classification with macro-at-$k$ metrics [5.404202957668374]
各ラベルに別々に適用されたバイナリ分類ユーティリティの和に線形に分解可能なメトリクスに焦点をあてる。
これらの"macro-at-k$"メトリクスは、長い尾ラベルを持つ極端な分類問題に対して望ましい性質を持っている。
本稿では,Frank-Wolfe法に基づく統計的に一貫した実践的学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-29T21:51:27Z) - Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。