論文の概要: BUSTER: a "BUSiness Transaction Entity Recognition" dataset
- arxiv url: http://arxiv.org/abs/2402.09916v1
- Date: Thu, 15 Feb 2024 12:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 15:51:45.763582
- Title: BUSTER: a "BUSiness Transaction Entity Recognition" dataset
- Title(参考訳): BUSTER: "ビジネストランザクションエンティティ認識"データセット
- Authors: Andrea Zugarini and Andrew Zamai and Marco Ernandes and Leonardo
Rigutini
- Abstract要約: ビジネスデータセットは、金融取引に関する手動の注釈付き文書3779から成り立っている。
最高のパフォーマンスモデルは6196の文書を自動的に注釈付けするためにも使用され、BUSTERに追加の銀のコーパスとしてリリースします。
- 参考スコア(独自算出の注目度): 0.9187159782788578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Albeit Natural Language Processing has seen major breakthroughs in the last
few years, transferring such advances into real-world business cases can be
challenging. One of the reasons resides in the displacement between popular
benchmarks and actual data. Lack of supervision, unbalanced classes, noisy data
and long documents often affect real problems in vertical domains such as
finance, law and health. To support industry-oriented research, we present
BUSTER, a BUSiness Transaction Entity Recognition dataset. The dataset consists
of 3779 manually annotated documents on financial transactions. We establish
several baselines exploiting both general-purpose and domain-specific language
models. The best performing model is also used to automatically annotate 6196
documents, which we release as an additional silver corpus to BUSTER.
- Abstract(参考訳): 自然言語処理はここ数年で大きなブレークスルーを遂げてきたが、そのような進歩を現実のビジネスケースに移すことは困難である。
その理由の1つは、人気のあるベンチマークと実際のデータの間の変位にある。
監督の欠如、バランスの取れないクラス、騒々しいデータ、長いドキュメントは、しばしば金融、法、健康といった垂直領域の実際の問題に影響を及ぼす。
産業指向の研究を支援するために,ビジネストランザクションエンティティ認識データセットであるbusterを提案する。
データセットは、金融取引に関する注釈付き文書3779から成り立っている。
汎用言語モデルとドメイン固有言語モデルの両方を利用したベースラインを確立する。
最高のパフォーマンスモデルは6196の文書を自動的に注釈付けするためにも使用され、BUSTERに追加の銀のコーパスとしてリリースします。
関連論文リスト
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Towards a Foundation Purchasing Model: Pretrained Generative
Autoregression on Transaction Sequences [0.0]
本稿では,金融取引の文脈的埋め込みを得るための生成事前学習手法を提案する。
さらに,510億の取引を含む180の発行銀行のデータコーパスを用いて,埋め込みモデルの大規模事前学習を行う。
論文 参考訳(メタデータ) (2024-01-03T09:32:48Z) - Multimodal Document Analytics for Banking Process Automation [4.541582055558865]
本論文は,銀行業務における文書処理における多モデルモデルの有効性と効率に関する実証的証拠を提示する。
日々の業務でこの可能性を解き放つための実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-07-21T18:29:04Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - REFinD: Relation Extraction Financial Dataset [7.207699035400335]
提案するREFinDは,$sim$29Kのインスタンスと8種類のエンティティペア間の22のリレーションを持つ,最初の大規模アノテートされた関係データセットである。
様々な最先端ディープラーニングモデルが,数値推論,関係性,方向性のあいまいさに悩まされていることを観察した。
論文 参考訳(メタデータ) (2023-05-22T22:40:11Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - FETILDA: An Effective Framework For Fin-tuned Embeddings For Long
Financial Text Documents [14.269860621624394]
本稿では,長い文書をチャンクに分割し,事前学習したLMを用いてチャンクをベクトル表現に処理・集約するディープラーニングフレームワークを提案し,実装する。
我々は、米国銀行からの10-Kの公開開示レポートの収集と、米国企業が提出した別のレポートのデータセットについて、我々の枠組みを評価した。
論文 参考訳(メタデータ) (2022-06-14T16:14:14Z) - Semi-Structured Query Grounding for Document-Oriented Databases with
Deep Retrieval and Its Application to Receipt and POI Matching [23.52046767195031]
半構造化データにおけるクエリグラウンドリング問題に対する埋め込み型検索の実践的課題に対処することを目的としている。
クエリとデータベースの両方のエントリの埋め込みと検索において,モジュールの最も効果的な組み合わせを見つけるために,広範な実験を行う。
提案モデルでは,従来の手動パターンモデルよりも大幅に優れ,開発コストやメンテナンスコストの低減が図られている。
論文 参考訳(メタデータ) (2022-02-23T05:32:34Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。