論文の概要: Argument Quality Annotation and Gender Bias Detection in Financial Communication through Large Language Models
- arxiv url: http://arxiv.org/abs/2508.08262v1
- Date: Tue, 22 Jul 2025 17:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.146698
- Title: Argument Quality Annotation and Gender Bias Detection in Financial Communication through Large Language Models
- Title(参考訳): 大規模言語モデルによる財務コミュニケーションにおける品質アノテーションとジェンダーバイアス検出
- Authors: Alaa Alhamzeh, Mays Al Rebdawi,
- Abstract要約: 我々は3つの最先端のLCMの財務的議論に言及する能力を評価する。
分析モデルに性別バイアスを注入する逆攻撃を導入する。
以上の結果から,LDMをベースとしたアノテーションは,人間よりもアノテータ間のアノテータ間の合意度が高いことが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Financial arguments play a critical role in shaping investment decisions and public trust in financial institutions. Nevertheless, assessing their quality remains poorly studied in the literature. In this paper, we examine the capabilities of three state-of-the-art LLMs GPT-4o, Llama 3.1, and Gemma 2 in annotating argument quality within financial communications, using the FinArgQuality dataset. Our contributions are twofold. First, we evaluate the consistency of LLM-generated annotations across multiple runs and benchmark them against human annotations. Second, we introduce an adversarial attack designed to inject gender bias to analyse models responds and ensure model's fairness and robustness. Both experiments are conducted across three temperature settings to assess their influence on annotation stability and alignment with human labels. Our findings reveal that LLM-based annotations achieve higher inter-annotator agreement than human counterparts, though the models still exhibit varying degrees of gender bias. We provide a multifaceted analysis of these outcomes and offer practical recommendations to guide future research toward more reliable, cost-effective, and bias-aware annotation methodologies.
- Abstract(参考訳): 金融議論は、金融機関に対する投資決定と公的信頼を形成する上で重要な役割を担っている。
それにもかかわらず、その質を評価することは文学ではあまり研究されていない。
本稿では、FinArgQualityデータセットを用いて、金融コミュニケーションにおける議論品質の注釈付けにおける、3つの最先端LLM GPT-4o、Llama 3.1、Gemma 2の機能について検討する。
私たちの貢献は2倍です。
まず、LLM生成アノテーションの一貫性を複数の実行で評価し、それらを人間のアノテーションと比較する。
第2に、モデルの応答を分析し、モデルの公正性とロバスト性を保証するために、性別バイアスを注入する対向攻撃を導入する。
どちらの実験も、3つの温度設定で行われ、アノテーションの安定性と人間のラベルとの整合性への影響を評価する。
以上の結果から,LDMによるアノテーションは,性別バイアスの程度は異なるものの,人間よりもアノテータ間の合意度が高いことが判明した。
我々は,これらの成果を多面的に分析し,より信頼性が高く,費用効果が高く,バイアスに配慮したアノテーション手法への今後の研究を導くための実践的な勧告を提供する。
関連論文リスト
- Your AI, Not Your View: The Bias of LLMs in Investment Analysis [55.328782443604986]
大規模言語モデル(LLM)は、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違により、しばしば知識の衝突に直面している。
本稿では, LLMに基づく投資分析において, 確認バイアスの定量的分析を行った。
われわれは、大口株に対する一貫した選好と、ほとんどのモデルにおけるコントラリアン戦略を観察する。
論文 参考訳(メタデータ) (2025-07-28T16:09:38Z) - Evaluating Large Language Models (LLMs) in Financial NLP: A Comparative Study on Financial Report Analysis [0.0]
大規模言語モデル(LLM)は、さまざまな金融自然言語処理(FinNLP)タスクで顕著な機能を示している。
本研究は,5つのLLM,GPT,Claude,Perplexity,Gemini,DeepSeekの総合的な比較評価を行う。
論文 参考訳(メタデータ) (2025-07-24T20:10:27Z) - Advanced Financial Reasoning at Scale: A Comprehensive Evaluation of Large Language Models on CFA Level III [0.0]
本稿では,CFA(Chartered Financial Analyst)レベルIII試験において,23の最先端のLarge Language Models (LLMs)を評価するベンチマークを提案する。
我々は,複数選択質問(MCQ)とエッセイスタイル回答の両方を,Chain-of-ThoughtやSelf-Discoverといった複数のプロンプト戦略を用いて評価する。
CFAレベルIIIでは79.1% (o4-mini) と77.3% (Gemini 2.5 Flash) の複合スコアが得られた。
論文 参考訳(メタデータ) (2025-06-29T19:54:57Z) - Assessing Consistency and Reproducibility in the Outputs of Large Language Models: Evidence Across Diverse Finance and Accounting Tasks [0.0]
本研究は,財務・会計研究における大規模言語モデル(LLM)出力の整合性と精度の総合評価を初めて行った。
3つのOpenAIモデルを使用して、さまざまな財務資料やデータから340万以上のアウトプットを生成します。
LLMは、人間の専門家が意見が一致しない場合でも、専門家のアノテータを著しく上回っている。
論文 参考訳(メタデータ) (2025-03-21T09:43:37Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - Evaluating and Advancing Multimodal Large Language Models in Perception Ability Lens [30.083110119139793]
textbfAbilityLensはMLLMを6つの重要な知覚能力で評価する統合ベンチマークである。
我々は、現在のメインストリームMLLMの長所と短所を特定し、安定性パターンを強調し、最先端のオープンソースモデルとクローズドソースモデルの顕著なパフォーマンスギャップを明らかにする。
論文 参考訳(メタデータ) (2024-11-22T04:41:20Z) - Evaluating Large Language Models on Financial Report Summarization: An Empirical Study [9.28042182186057]
我々は3つの最先端大言語モデル(LLM)の比較研究を行っている。
我々の主な動機は、これらのモデルがどのように金融の中で活用できるかを探求することであり、正確さ、文脈的関連性、誤った情報や誤解を招く情報に対する堅牢性を要求する分野である。
本稿では,定量的メトリクス(精度,リコールなど)と質的分析(コンテキスト適合性,一貫性など)を統合し,各モデルの出力品質の全体像を提供する,革新的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-11T10:36:04Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。