論文の概要: SEntFiN 1.0: Entity-Aware Sentiment Analysis for Financial News
- arxiv url: http://arxiv.org/abs/2305.12257v1
- Date: Sat, 20 May 2023 18:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:29:21.714949
- Title: SEntFiN 1.0: Entity-Aware Sentiment Analysis for Financial News
- Title(参考訳): SEntFiN 1.0: ファイナンシャルニュースのエンティティ対応感性分析
- Authors: Ankur Sinha, Satishwar Kedas, Rishu Kumar, Pekka Malo
- Abstract要約: SentFiN 1.0は10,753のニュースヘッドラインとエンティティ・センチメント・アノテーションを備えた人為的注釈付きデータセットです。
本稿では,表現に基づくアプローチではなく,特徴に基づくアプローチを用いて,エンティティ関連感情の抽出を可能にするフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.03018439717785794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained financial sentiment analysis on news headlines is a challenging
task requiring human-annotated datasets to achieve high performance. Limited
studies have tried to address the sentiment extraction task in a setting where
multiple entities are present in a news headline. In an effort to further
research in this area, we make publicly available SEntFiN 1.0, a
human-annotated dataset of 10,753 news headlines with entity-sentiment
annotations, of which 2,847 headlines contain multiple entities, often with
conflicting sentiments. We augment our dataset with a database of over 1,000
financial entities and their various representations in news media amounting to
over 5,000 phrases. We propose a framework that enables the extraction of
entity-relevant sentiments using a feature-based approach rather than an
expression-based approach. For sentiment extraction, we utilize 12 different
learning schemes utilizing lexicon-based and pre-trained sentence
representations and five classification approaches. Our experiments indicate
that lexicon-based n-gram ensembles are above par with pre-trained word
embedding schemes such as GloVe. Overall, RoBERTa and finBERT (domain-specific
BERT) achieve the highest average accuracy of 94.29% and F1-score of 93.27%.
Further, using over 210,000 entity-sentiment predictions, we validate the
economic effect of sentiments on aggregate market movements over a long
duration.
- Abstract(参考訳): ニュースヘッドラインのきめ細かい財務感情分析は、ハイパフォーマンスを達成するために人間の注釈付きデータセットを必要とする課題である。
ニュースヘッドラインに複数のエンティティが存在する設定において、感情抽出タスクを扱おうとする研究は限られている。
この領域のさらなる研究のために、私たちは、人間による注釈付き10,753のニュースの見出しとエンティティ・センチメントのアノテーションを備えたSEntFiN 1.0を公開しています。
我々は、1000以上の金融団体のデータベースと、5000以上のフレーズをニュースメディアで表現することで、データセットを増強する。
本稿では,表現に基づくアプローチではなく,特徴に基づくアプローチを用いて,エンティティ関連感情の抽出を可能にするフレームワークを提案する。
感情抽出には,辞書ベースおよび事前学習文表現と5つの分類手法を用いた12種類の学習手法を用いる。
実験の結果,レキシコンベースのn-gramアンサンブルはグローブのような事前学習された単語埋め込みスキームと同等であることがわかった。
全体として、RoBERTaとfinBERT(ドメイン固有のBERT)は94.29%、F1スコアは93.27%である。
さらに,210,000以上のエンティティ・センチメント予測を用いて,長期にわたる市場の動向に対する感情の経済効果を検証した。
関連論文リスト
- Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Optimal Strategies to Perform Multilingual Analysis of Social Content
for a Novel Dataset in the Tourism Domain [5.848712585343905]
大規模な多言語言語モデル上で、少数ショット、パターン探索、微調整の機械学習技術を評価する。
我々は,3つの共通NLPタスクにおいて,優れた性能を実現するのに必要な注釈付きサンプルの量を確認することを目的としている。
この作業は、NLPを新しいドメイン固有のアプリケーションに適用する方法を舗装する。
論文 参考訳(メタデータ) (2023-11-20T13:08:21Z) - FinEntity: Entity-level Sentiment Classification for Financial Texts [15.467477195487763]
金融分野では、特定の金融機関に対する感情を正確に評価するために、エンティティレベルの感情分析を行うことが不可欠である。
ファイナンシャル・ニュースにおけるエンティティレベルの感情分類データセットであるtextbfFinEntityを導入する。
論文 参考訳(メタデータ) (2023-10-19T01:38:40Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Context-NER : Contextual Phrase Generation at Scale [4.7947627446578025]
文中のエンティティに関連するコンテキストを生成するタスクであるCONTEXT-NERを紹介する。
EDGAR10-Qデータセットは,100万文,2.8万エンティティ,平均35トークンを含む。
EDGAR10-Qで事前調整したT5-largeは,Headline,FPB,FiQA SAなどの下流財務タスクにおいてSOTA結果を得ることができ,バニラバージョンを10.81ポイント上回った。
論文 参考訳(メタデータ) (2021-09-16T16:10:05Z) - T-BERT -- Model for Sentiment Analysis of Micro-blogs Integrating Topic
Model and BERT [0.0]
生のライブデータセットからの感情分類タスクにおけるBERT(Bidirectional Representations from Transformers)の有効性を示す。
T-BERT フレームワークは、潜在トピックとコンテキスト BERT 埋め込みを組み合わせることで得られる性能向上を示す。
論文 参考訳(メタデータ) (2021-06-02T12:01:47Z) - Author's Sentiment Prediction [13.459029439420872]
PerSenTは、ニュース記事の主要なエンティティに対して著者が表現した感情のクラウドソースアノテーションのデータセットである。
データセットには段落レベルの感情アノテーションが含まれており、タスクのよりきめ細かい監視を提供する。
我々はこのデータセットを5.3kの文書と38kの段落で公開し、エンティティの感情分析の課題として3.2kのユニークなエンティティをカバーした。
論文 参考訳(メタデータ) (2020-11-12T00:03:26Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。