論文の概要: Automatic detection of relevant information, predictions and forecasts in financial news through topic modelling with Latent Dirichlet Allocation
- arxiv url: http://arxiv.org/abs/2404.01338v1
- Date: Sat, 30 Mar 2024 17:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 21:06:49.603242
- Title: Automatic detection of relevant information, predictions and forecasts in financial news through topic modelling with Latent Dirichlet Allocation
- Title(参考訳): ラテント・ディリクレ・アロケーションを用いたトピック・モデリングによる金融ニュースの関連情報・予測・予測の自動検出
- Authors: Silvia García-Méndez, Francisco de Arriba-Pérez, Ana Barros-Vila, Francisco J. González-Castaño, Enrique Costa-Montenegro,
- Abstract要約: 我々は、関連するテキストを特定するための財務ニュースの分析と、そのテキストの中で予測と予測に焦点を当てる。
本稿では、投資家が関連する金融事象を検出するのを支援するために、新たな自然言語処理(NLP)システムを提案する。
- 参考スコア(独自算出の注目度): 9.059679096341474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Financial news items are unstructured sources of information that can be mined to extract knowledge for market screening applications. Manual extraction of relevant information from the continuous stream of finance-related news is cumbersome and beyond the skills of many investors, who, at most, can follow a few sources and authors. Accordingly, we focus on the analysis of financial news to identify relevant text and, within that text, forecasts and predictions. We propose a novel Natural Language Processing (NLP) system to assist investors in the detection of relevant financial events in unstructured textual sources by considering both relevance and temporality at the discursive level. Firstly, we segment the text to group together closely related text. Secondly, we apply co-reference resolution to discover internal dependencies within segments. Finally, we perform relevant topic modelling with Latent Dirichlet Allocation (LDA) to separate relevant from less relevant text and then analyse the relevant text using a Machine Learning-oriented temporal approach to identify predictions and speculative statements. We created an experimental data set composed of 2,158 financial news items that were manually labelled by NLP researchers to evaluate our solution. The ROUGE-L values for the identification of relevant text and predictions/forecasts were 0.662 and 0.982, respectively. To our knowledge, this is the first work to jointly consider relevance and temporality at the discursive level. It contributes to the transfer of human associative discourse capabilities to expert systems through the combination of multi-paragraph topic segmentation and co-reference resolution to separate author expression patterns, topic modelling with LDA to detect relevant text, and discursive temporality analysis to identify forecasts and predictions within this text.
- Abstract(参考訳): 金融ニュースは、市場スクリーニングアプリケーションに関する知識を抽出するために採掘できる、構造化されていない情報のソースである。
金融関連のニュースの連続ストリームから関連する情報を手作業で抽出するのは面倒で、多くの投資家のスキルを超える。
そこで本研究では,関連するテキストを識別するための財務ニュースの分析と,そのテキスト内での予測と予測に焦点をあてる。
本研究では,非構造化テキストソースにおける関連財務事象の検出を支援する自然言語処理(NLP)システムを提案する。
まず、テキストを分割して、密接に関連するテキストをグループ化する。
第二に、セグメント内の内部依存性を発見するために、共参照解決を適用します。
最後に、LDA(Latent Dirichlet Allocation)を用いて関連するトピックモデリングを行い、関係の少ないテキストを分離し、機械学習指向の時間的アプローチを用いて関連するテキストを分析し、予測と投機的ステートメントを識別する。
我々は、NLP研究者によって手動でラベル付けされた2,158件の財務ニュース記事からなる実験データセットを作成し、そのソリューションを評価した。
関連テキストと予測・予測のROUGE-L値は0.662と0.982であった。
私たちの知る限りでは、これは分散レベルにおける関連性と時間性について共同で検討する最初の作品です。
マルチパラグラフのトピックセグメンテーションと共参照の解決を組み合わせて、著者の表現パターンを分離し、LDAを使って関連するテキストを検出するトピックモデリングを行い、このテキスト内の予測と予測を識別するための非帰的時間性分析を行うことによって、専門家システムへの人間の連想的談話能力の伝達に寄与する。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Context Matters: Leveraging Contextual Features for Time Series Forecasting [2.9687381456164004]
既存の予測モデルにマルチモーダルなコンテキスト情報を外科的に統合する新しいプラグイン・アンド・プレイ手法であるContextFormerを導入する。
ContextFormerは、カテゴリ、連続、時間変化、さらにはテキスト情報を含む、リッチなマルチモーダルコンテキストから予測固有の情報を効果的に蒸留する。
エネルギー、交通、環境、金融ドメインにまたがるさまざまな実世界のデータセットにおいて、SOTA予測モデルを最大30%上回ります。
論文 参考訳(メタデータ) (2024-10-16T15:36:13Z) - Detection of Temporality at Discourse Level on Financial News by Combining Natural Language Processing and Machine Learning [8.504685056067144]
Bloomberg News、CNN Business、Forbesといった金融関連のニュースは、市場スクリーニングシステムにとって貴重なデータ源である。
談話レベルでの財務関連ニュースの時間性を検出する新しいシステムを提案する。
この分野の知識を持つ研究者によって注釈付けされた金融関連ニュースのラベル付きデータセットを用いて,本システムを検証した。
論文 参考訳(メタデータ) (2024-03-30T16:40:10Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Financial data analysis application via multi-strategy text processing [0.2741266294612776]
本稿では、主に中国A株会社の株価取引データとニュースに焦点を当てる。
本稿では,自然言語処理(NLP)と知識グラフ(KG)技術を用いた金融テキスト処理アプリケーションシナリオの深層学習に向けた取り組みと計画について述べる。
論文 参考訳(メタデータ) (2022-04-25T01:56:36Z) - Forecasting Cryptocurrency Returns from Sentiment Signals: An Analysis
of BERT Classifiers and Weak Supervision [6.624726878647541]
我々は、テキストデータがラベル付けされていない問題に対処するための、最近提案されたNLPアプローチである弱い学習を導入する。
弱いラベルを用いた微調整は、テキストベースの特徴の予測値を高め、暗号通貨のリターンを予測する文脈で予測精度を高めることを確認した。
より根本的には、我々が提示するモデリングパラダイム、弱いラベル付けドメイン固有テキスト、微調整済みNLPモデルは、(金融)予測において普遍的に適用可能である。
論文 参考訳(メタデータ) (2022-04-06T07:45:05Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Text analysis in financial disclosures [0.0]
会社の財務情報開示の殆どは、構造化されていないテキストである。
研究者は最近、情報開示のテキストコンテンツを分析し始めた。
この研究は、現在の感情指標の焦点の限界を強調して、開示分析方法に寄与する。
論文 参考訳(メタデータ) (2021-01-06T17:45:40Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。