Fugu-MT 論文翻訳(概要): Evaluating Financial Sentiment Analysis with Annotators Instruction Assisted Prompting: Enhancing Contextual Interpretation and Stock Prediction Accuracy

論文の概要: Evaluating Financial Sentiment Analysis with Annotators Instruction Assisted Prompting: Enhancing Contextual Interpretation and Stock Prediction Accuracy

arxiv url: http://arxiv.org/abs/2505.07871v1
Date: Fri, 09 May 2025 19:44:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-14 20:57:54.243145
Title: Evaluating Financial Sentiment Analysis with Annotators Instruction Assisted Prompting: Enhancing Contextual Interpretation and Stock Prediction Accuracy
Title（参考訳）: アノテーション指導型プロンプティングによる財務感性分析の評価:文脈解釈と株価予測精度の向上
Authors: A M Muntasir Rahman, Ajim Uddin, Guiling "Grace" Wang,
Abstract要約: アノテータによるAIAP(Instruction Assisted Prompt)は、人間と機械の両方の解釈における感情の理解を標準化することを目的としている。 We use a new data, WSBS, derived from the WallStreetBets subreddit to demonstrate how AIAP significantly enhances LLM performance。この文脈認識アプローチは、パフォーマンスの漸進的な向上をもたらし、また革新的な感情インデクシング手法も導入する。
参考スコア（独自算出の注目度）: 1.481550828146527
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Financial sentiment analysis (FSA) presents unique challenges to LLMs that surpass those in typical sentiment analysis due to the nuanced language used in financial contexts. The prowess of these models is often undermined by the inherent subjectivity of sentiment classifications in existing benchmark datasets like Financial Phrasebank. These datasets typically feature undefined sentiment classes that reflect the highly individualized perspectives of annotators, leading to significant variability in annotations. This variability results in an unfair expectation for LLMs during benchmarking, where they are tasked to conjecture the subjective viewpoints of human annotators without sufficient context. In this paper, we introduce the Annotators' Instruction Assisted Prompt, a novel evaluation prompt designed to redefine the task definition of FSA for LLMs. By integrating detailed task instructions originally intended for human annotators into the LLMs' prompt framework, AIAP aims to standardize the understanding of sentiment across both human and machine interpretations, providing a fair and context-rich foundation for sentiment analysis. We utilize a new dataset, WSBS, derived from the WallStreetBets subreddit to demonstrate how AIAP significantly enhances LLM performance by aligning machine operations with the refined task definitions. Experimental results demonstrate that AIAP enhances LLM performance significantly, with improvements up to 9.08. This context-aware approach not only yields incremental gains in performance but also introduces an innovative sentiment-indexing method utilizing model confidence scores. This method enhances stock price prediction models and extracts more value from the financial sentiment analysis, underscoring the significance of WSB as a critical source of financial text. Our research offers insights into both improving FSA through better evaluation methods.
Abstract（参考訳）: 金融感情分析(FSA)は、財務状況で使われるニュアンス言語により、典型的な感情分析に勝る独特な課題をLCMに提示する。これらのモデルの長所は、Financial Phrasebankのような既存のベンチマークデータセットにおける感情分類の固有の主観性によって、しばしば損なわれます。これらのデータセットは一般的に、アノテーションの高度に個別化された視点を反映する未定義の感情クラスを特徴としており、アノテーションに大きなばらつきをもたらしている。この可変性は、ベンチマーク中に人間のアノテータの主観的視点を十分な文脈で推測することが義務付けられるLSMに対して不公平な期待をもたらす。本稿では,LDMにおけるFSAのタスク定義の再定義を目的とした,新しい評価プロンプトであるAnnotators' Instruction Assisted Promptを紹介する。人間のアノテータを意図した詳細なタスク命令をLLMのプロンプトフレームワークに統合することで、AIAPは人間と機械の両方の解釈における感情の理解を標準化し、公平で文脈に富んだ感情分析の基礎を提供することを目指している。 We use a new data, WSBS, derived from the WallStreetBets subreddit to demonstrate how AIAP significantly enhances LLM performance byaligneding machine operations with the refined task definitions。実験の結果、AIAPはLLM性能を大幅に向上し、9.08まで改善した。この文脈認識アプローチは、性能が漸進的に向上するだけでなく、モデル信頼度スコアを利用した革新的な感情インデクシング手法も導入する。この方法は、株価予測モデルを強化し、金融感情分析からより多くの価値を抽出する。我々の研究は、より良い評価方法によるFSAの改善の両方に関する洞察を提供する。

関連論文リスト

LAET: A Layer-wise Adaptive Ensemble Tuning Framework for Pretrained Language Models [7.216206616406649]
BloombergGPTやFinMAのような大規模言語モデル(LLM)は、さまざまな財務NLPタスクに対して新しいベンチマークを設定している。我々は,LLMの最も効果的な層を選択的に微調整する新しい戦略であるLayer-wise Adaptive Ensemble Tuning (LAET)を提案する。提案手法は,財務NLPタスクにおいて,既存のベンチマークや最先端のLCMよりも優れた結果を示す。
論文参考訳（メタデータ） (2025-11-14T13:57:46Z)
Interpreting LLMs as Credit Risk Classifiers: Do Their Feature Explanations Align with Classical ML? [4.0057196015831495]
大言語モデル(LLM)は、ゼロショットプロンプトによる分類タスクのための古典的な機械学習モデルの柔軟な代替品として、ますます研究されている。本研究では,ゼロショットLPMに基づく分類器と,現実のローンデフォルト予測タスクにおいて,最先端の勾配ブースティングモデルであるLightGBMとを体系的に比較する。我々は,それらの予測性能を評価し,SHAPを用いて特徴属性を分析し,LLM生成自己説明の信頼性を評価する。
論文参考訳（メタデータ） (2025-10-29T17:05:00Z)
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文参考訳（メタデータ） (2025-10-07T20:06:15Z)
Evaluating Large Language Models for Financial Reasoning: A CFA-Based Benchmark Study [1.6770212301915661]
本研究は,CFAのレベルI-IIIにおける公式モック試験から得られた1,560件のマルチチョイス質問を用いて,最先端LCMの総合評価を行った最初の事例である。主設計上の優先事項として,マルチモーダル・計算能力,推論・特殊化・高精度化,軽量な効率最適化といったモデルを比較した。
論文参考訳（メタデータ） (2025-08-29T06:13:21Z)
Beyond Naïve Prompting: Strategies for Improved Zero-shot Context-aided Forecasting with LLMs [57.82819770709032]
大規模言語モデル (LLM) は、na "ive direct prompting" を通じて効果的な文脈支援予測を行うことができる。 ReDPは、明確な推論トレースを抽出することで、解釈可能性を改善し、コンテキスト上でモデルの推論を評価することができる。 CorDPはLLMを活用して、既存の予測をコンテキストで洗練し、現実の予測パイプラインにおける適用性を高める。 IC-DPは、文脈支援予測タスクの歴史的例を即時に組み込むことを提案し、大規模モデルにおいても精度を大幅に向上させる。
論文参考訳（メタデータ） (2025-08-13T16:02:55Z)
FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-08-07T22:15:22Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Integration of Explainable AI Techniques with Large Language Models for Enhanced Interpretability for Sentiment Analysis [0.5120567378386615]
大規模言語モデル(LLM)による感情分析における解釈可能性の重要性本研究では,LLMを埋め込み層,エンコーダ,デコーダ,アテンション層などのコンポーネントに分解することでSHAP(Shapley Additive Explanations)を適用する手法を提案する。この方法はStanford Sentiment Treebank (SST-2)データセットを用いて評価され、異なる文が異なる層にどのように影響するかを示す。
論文参考訳（メタデータ） (2025-03-15T01:37:54Z)
Auto-Generating Earnings Report Analysis via a Financial-Augmented LLM [1.3597551064547502]
本稿では,収益報告分析を自動生成する LLM の開発という,新たな課題を提案する。我々の手法は、既存の決算報告の詳細な分析と、この目的のためにLCMを微調整するためのユニークなアプローチを含む。広範な財務文書により、金融指導データを構築し、LLMを財務状況に適応させることを可能にした。
論文参考訳（メタデータ） (2024-12-11T08:09:42Z)
LLMFactor: Extracting Profitable Factors through Prompts for Explainable Stock Movement Prediction [5.519288891583653]
LLMFactorと呼ばれる新しいフレームワークを導入し、ストックムーブメントに影響を与える要因を特定する。キーフレーズや感情分析に頼っていた従来の手法とは異なり、このアプローチは株式市場のダイナミクスとより直接的に関係する要因を抽出することに焦点を当てている。当社の枠組みは,LCMに対して,包括的戦略を通じて背景知識の創出を指示し,関連ニュースから株価に影響を及ぼす潜在的な要因を識別する。
論文参考訳（メタデータ） (2024-06-16T06:20:50Z)
Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文参考訳（メタデータ） (2024-06-05T20:19:09Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Log Probabilities Are a Reliable Estimate of Semantic Plausibility in Base and Instruction-Tuned Language Models [50.15455336684986]
意味的妥当性を評価するため,LogProbsの有効性と基本的なプロンプトを評価した。 LogProbsは、直接ゼロショットプロンプトよりも、より信頼性の高いセマンティックな妥当性を提供する。我々は,プロンプトベースの評価の時代においても,LogProbsは意味的妥当性の有用な指標である,と結論付けた。
論文参考訳（メタデータ） (2024-03-21T22:08:44Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
Mastering the Task of Open Information Extraction with Large Language Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文参考訳（メタデータ） (2023-10-16T17:11:42Z)
Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models [11.154814189699735]
大規模な言語モデル (LLM) は様々なNLPタスクにおいて優れた性能を示した。本稿では,金融感情分析のためのLLMフレームワークを提案する。提案手法の精度は15%から48%向上し,F1得点を得た。
論文参考訳（メタデータ） (2023-10-06T05:40:23Z)
Instruct-FinGPT: Financial Sentiment Analysis by Instruction Tuning of General-Purpose Large Language Models [18.212210748797332]
本稿では,これらの問題に対処する簡易かつ効果的な命令チューニング手法を提案する。実験では, 最先端の教師付き感情分析モデルより優れていた。
論文参考訳（メタデータ） (2023-06-22T03:56:38Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)
Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [51.3422222472898]
ニュース見出しを用いて,ChatGPTのような大規模言語モデル(LLM)の株価変動を予測する能力について述べる。我々は,情報容量制約,過小反応,制限対アビタージュ,LLMを組み込んだ理論モデルを構築した。
論文参考訳（メタデータ） (2023-04-15T19:22:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。