論文の概要: Comparative Evaluation of Embedding Representations for Financial News Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2512.13749v1
- Date: Mon, 15 Dec 2025 04:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.42419
- Title: Comparative Evaluation of Embedding Representations for Financial News Sentiment Analysis
- Title(参考訳): ファイナンシャルニュースセンティメント分析における埋め込み表現の比較評価
- Authors: Joyjit Roy, Samaresh Kumar Singh,
- Abstract要約: 本研究は,資源制約環境における財務ニュース感情分類のための埋め込み型手法の比較評価を行う。
強力なバリデーションメトリクスにもかかわらず、自明なベースラインよりもパフォーマンスの悪いモデル。
発見は、埋め込み品質だけで感情分類における基本的なデータ不足に対処できないという実証的な証拠を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Financial sentiment analysis enhances market understanding; however, standard natural language processing approaches encounter significant challenges when applied to small datasets. This study provides a comparative evaluation of embedding-based methods for financial news sentiment classification in resource-constrained environments. Word2Vec, GloVe, and sentence transformer representations are evaluated in combination with gradient boosting on manually labeled headlines. Experimental results identify a substantial gap between validation and test performance, with models performing worse than trivial baselines despite strong validation metrics. The analysis demonstrates that pretrained embeddings yield diminishing returns below a critical data sufficiency threshold, and that small validation sets contribute to overfitting during model selection. Practical application is illustrated through weekly sentiment aggregation and narrative summarization for market monitoring workflows. The findings offer empirical evidence that embedding quality alone cannot address fundamental data scarcity in sentiment classification. For practitioners operating with limited resources, the results indicate the need to consider alternative approaches such as few-shot learning, data augmentation, or lexicon-enhanced hybrid methods when labeled samples are scarce.
- Abstract(参考訳): しかし、標準的な自然言語処理アプローチは、小さなデータセットに適用した場合、重大な課題に直面する。
本研究は,資源制約環境における財務ニュース感情分類のための埋め込み型手法の比較評価を行う。
Word2Vec、GloVe、および文変換器表現は、手動でラベル付けされた見出しの勾配上昇と組み合わせて評価する。
実験の結果、検証基準が強いにもかかわらず、モデルは自明なベースラインよりもパフォーマンスが悪く、検証とテストのパフォーマンスの間にかなりのギャップがあることが判明した。
この分析は、事前学習した埋め込みが臨界データ充足閾値未満のリターンを減少させ、小さな検証セットがモデル選択時の過度な適合に寄与することを示した。
市場モニタリングワークフローのための週毎の感情集約と物語要約を通じて、実践的な応用を図示する。
この発見は、埋め込み品質だけでは感情分類における基本的なデータ不足に対処できないという実証的な証拠を提供する。
限られた資源で活動する実践者に対しては,ラベル付きサンプルが不足している場合には,少数ショット学習やデータ拡張,レキシコン強化ハイブリッド手法などの代替手法を検討する必要がある。
関連論文リスト
- Optimizing Small Transformer-Based Language Models for Multi-Label Sentiment Analysis in Short Texts [4.166512373146747]
短文の感情分類における小さなトランスフォーマーモデルの有効性を評価する。
データを拡張することで分類性能が向上するのに対し、拡張データセットの事前トレーニングは精度を向上するよりもノイズを発生させる可能性があることを示す。
論文 参考訳(メタデータ) (2025-09-05T10:08:14Z) - Alpha and Prejudice: Improving $α$-sized Worst-case Fairness via Intrinsic Reweighting [34.954141077528334]
既成人口集団との最悪のフェアネスは、最悪の集団のモデルユーティリティを最大化することで、同等性を達成する。
近年の進歩は、最小分割比の低い境界を導入することで、この学習問題を再構築している。
論文 参考訳(メタデータ) (2024-11-05T13:04:05Z) - Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation [2.0411082897313984]
本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。
提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。
実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
論文 参考訳(メタデータ) (2024-06-17T21:45:48Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Towards Integration of Discriminability and Robustness for
Document-Level Relation Extraction [41.51148745387936]
ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内の長距離コンテキスト依存推論に依存するエンティティペアの関係を予測する。
本研究では,DocRE問題に対する差別性とロバスト性の両方をよりよく統合することを目的としている。
エントロピーの最小化と教師付きコントラスト学習を革新的にカスタマイズする。
論文 参考訳(メタデータ) (2023-04-03T09:11:18Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Latent Opinions Transfer Network for Target-Oriented Opinion Words
Extraction [63.70885228396077]
資源豊富なレビュー評価分類データセットから低リソースタスクTOWEへ意見知識を伝達する新しいモデルを提案する。
我々のモデルは、他の最先端手法よりも優れた性能を達成し、意見の知識を伝達することなく、ベースモデルを大幅に上回る。
論文 参考訳(メタデータ) (2020-01-07T11:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。