論文の概要: FETILDA: An Effective Framework For Fin-tuned Embeddings For Long
Financial Text Documents
- arxiv url: http://arxiv.org/abs/2206.06952v1
- Date: Tue, 14 Jun 2022 16:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 14:00:53.421757
- Title: FETILDA: An Effective Framework For Fin-tuned Embeddings For Long
Financial Text Documents
- Title(参考訳): fetilda:fin-tuned embeddeds for long financial text documentの効果的なフレームワーク
- Authors: Bolun "Namir" Xia, Vipula D. Rawte, Mohammed J. Zaki, Aparna Gupta
- Abstract要約: 本稿では,長い文書をチャンクに分割し,事前学習したLMを用いてチャンクをベクトル表現に処理・集約するディープラーニングフレームワークを提案し,実装する。
我々は、米国銀行からの10-Kの公開開示レポートの収集と、米国企業が提出した別のレポートのデータセットについて、我々の枠組みを評価した。
- 参考スコア(独自算出の注目度): 14.269860621624394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unstructured data, especially text, continues to grow rapidly in various
domains. In particular, in the financial sphere, there is a wealth of
accumulated unstructured financial data, such as the textual disclosure
documents that companies submit on a regular basis to regulatory agencies, such
as the Securities and Exchange Commission (SEC). These documents are typically
very long and tend to contain valuable soft information about a company's
performance. It is therefore of great interest to learn predictive models from
these long textual documents, especially for forecasting numerical key
performance indicators (KPIs). Whereas there has been a great progress in
pre-trained language models (LMs) that learn from tremendously large corpora of
textual data, they still struggle in terms of effective representations for
long documents. Our work fills this critical need, namely how to develop better
models to extract useful information from long textual documents and learn
effective features that can leverage the soft financial and risk information
for text regression (prediction) tasks. In this paper, we propose and implement
a deep learning framework that splits long documents into chunks and utilizes
pre-trained LMs to process and aggregate the chunks into vector
representations, followed by self-attention to extract valuable document-level
features. We evaluate our model on a collection of 10-K public disclosure
reports from US banks, and another dataset of reports submitted by US
companies. Overall, our framework outperforms strong baseline methods for
textual modeling as well as a baseline regression model using only numerical
data. Our work provides better insights into how utilizing pre-trained
domain-specific and fine-tuned long-input LMs in representing long documents
can improve the quality of representation of textual data, and therefore, help
in improving predictive analyses.
- Abstract(参考訳): 構造化されていないデータ、特にテキストは、様々な領域で急速に成長を続けている。
特に金融の分野では、企業が証券取引委員会(sec)などの規制当局に定期的に提出する文書開示文書など、蓄積された非構造化金融データが豊富に存在する。
これらの文書は一般的に非常に長く、会社の業績に関する貴重なソフト情報を含んでいる傾向がある。
したがって、これらの長文文書から予測モデルを学ぶこと、特に数値的なキー性能指標(KPI)を予測することは大きな関心事である。
テキストデータの膨大なコーパスから学習する事前学習された言語モデル(LM)は大きな進歩を遂げているが、長い文書の効果的な表現の面ではまだ苦戦している。
我々の研究は、長文文書から有用な情報を抽出し、テキスト回帰(予測)タスクにソフトファイナンシャルおよびリスク情報を活用できる効果的な特徴を学習するための、より良いモデルの開発という、この重要なニーズを満たす。
本稿では,長い文書をチャンクに分割し,事前学習したLMを用いて,チャンクをベクトル表現に処理・集約する深層学習フレームワークの提案と実装を行う。
我々は、米国銀行からの10kの公開開示報告と、米国企業が提出した報告書のデータセットに基づいて、このモデルを評価する。
全体として,本フレームワークは,数値データのみを用いたベースライン回帰モデルと同様に,テキストモデリングのための強力なベースライン手法を上回る。
我々の研究は、文書の長文表現における事前訓練済みのドメイン固有および微調整長文LMの活用により、テキストデータの表現の質が向上し、予測分析の改善に有効であることを示す。
関連論文リスト
- Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。
文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。
本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文 参考訳(メタデータ) (2024-10-28T16:11:35Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - SEGMENT+: Long Text Processing with Short-Context Language Models [53.40059130780192]
SEGMENT+は、LMが限られたコンテキストウィンドウ内で拡張入力を効率的に処理できるフレームワークである。
SEGMENT+は構造化音符とフィルタリングモジュールを使用して情報の流れを管理し、制御可能かつ解釈可能なシステムを実現する。
論文 参考訳(メタデータ) (2024-10-09T03:40:22Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Leveraging Long-Context Large Language Models for Multi-Document Understanding and Summarization in Enterprise Applications [1.1682259692399921]
LLM(Long-context Large Language Model)は、広範囲の接続を把握し、結合的な要約を提供し、様々な業界領域に適応することができる。
ケーススタディでは、効率と精度の両方が顕著に向上している。
論文 参考訳(メタデータ) (2024-09-27T05:29:31Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - LongFin: A Multimodal Document Understanding Model for Long Financial
Domain Documents [4.924255992661131]
最大4Kトークンをエンコード可能なマルチモーダル文書AIモデルであるLongFinを紹介する。
また、金融文書におけるいくつかの産業課題をカプセル化したLongFormsデータセットを提案する。
論文 参考訳(メタデータ) (2024-01-26T18:23:45Z) - Large Language Model Adaptation for Financial Sentiment Analysis [2.0499240875882]
一般言語モデルは、金融に特化されたタスクでは不足する傾向にある。
1.5B未満のパラメータを持つ2つの基礎モデルは、幅広い戦略を用いて適応されている。
小型LLMは大規模モデルに匹敵する性能を有しつつ,パラメータやデータの観点からも効率がよいことを示す。
論文 参考訳(メタデータ) (2024-01-26T11:04:01Z) - Multimodal Document Analytics for Banking Process Automation [4.541582055558865]
本論文は,銀行業務における文書処理における多モデルモデルの有効性と効率に関する実証的証拠を提示する。
日々の業務でこの可能性を解き放つための実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-07-21T18:29:04Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。