論文の概要: SAHM: A Benchmark for Arabic Financial and Shari'ah-Compliant Reasoning
- arxiv url: http://arxiv.org/abs/2604.19098v1
- Date: Tue, 21 Apr 2026 05:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.633509
- Title: SAHM: A Benchmark for Arabic Financial and Shari'ah-Compliant Reasoning
- Title(参考訳): SAHM:アラビア金融とシャリーア・コンピレント・推論のベンチマーク
- Authors: Rania Elbadry, Sarfraz Ahmad, Ahmed Heakl, Dani Bouch, Momina Ahsan, Muhra AlMahri, Marwa Elsaid khalil, Yuxia Wang, Salem Lahlou, Sophia Ananiadou, Veselin Stoyanov, Jimin Huang, Xueqing Peng, Preslav Nakov, Zhuohan Xie,
- Abstract要約: アラビア財務NLPとシャリヤ対応推論のための文書グラウンドベンチマークと命令チューニングデータセットであるSAHMを紹介する。
SAHMには、AAOIFI標準QA、fatwaベースのQA/MCQ、会計とビジネス試験、財務感情分析、抽出要約、イベント起因推論の7つのタスクにまたがる14,380のエキスパート認定インスタンスが含まれている。
アラビア語の流布は、証拠を根拠とした金銭的推論に確実に変換されない。
- 参考スコア(独自算出の注目度): 59.20983102634086
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: English financial NLP has progressed rapidly through benchmarks for sentiment, document understanding, and financial question answering, while Arabic financial NLP remains comparatively under-explored despite strong practical demand for trustworthy finance and Islamic-finance assistants. We introduce SAHM, a document-grounded benchmark and instruction-tuning dataset for Arabic financial NLP and Shari'ah-compliant reasoning. SAHM contains 14,380 expert-verified instances spanning seven tasks: AAOIFI standards QA, fatwa-based QA/MCQ, accounting and business exams, financial sentiment analysis, extractive summarization, and event-cause reasoning, curated from authentic regulatory, juristic, and corporate sources. We evaluate 19 strong open and proprietary LLMs using task-specific metrics and rubric-based scoring for open-ended outputs, and find that Arabic fluency does not reliably translate to evidence-grounded financial reasoning: models are substantially stronger on recognition-style tasks than on generation and causal reasoning, with the largest gaps on event-cause reasoning. We release the benchmark, evaluation framework, and an instruction-tuned model to support future research on trustworthy Arabic financial NLP.
- Abstract(参考訳): イングリッシュ・ファイナンス・NLPは感傷性や文書の理解、財務問題への回答のベンチマークを通じて急速に進展している一方、アラビア・ファイナンス・NLPは信頼に値する金融とイスラム金融のアシスタントに対する強力な実用的な需要にもかかわらず、比較的調査が過小評価されている。
アラビア財務NLPとシャリヤ対応推論のための文書グラウンドベンチマークと命令チューニングデータセットであるSAHMを紹介する。
SAHMには、AAOIFI標準QA、fatwaベースのQA/MCQ、会計とビジネス試験、財務的感情分析、抽出的要約、および事象原因推論の7つのタスクにまたがる14,380のエキスパート認定インスタンスが含まれている。
我々は,タスク固有の指標とルーリックに基づくスコアを用いて,19の強力なオープンかつプロプライエタリなLCMを評価し,アラビア・フラレンシがエビデンスに基づく財務推論に確実に対応していないことを発見した。
我々は、信頼できるアラビア財務NLPの今後の研究を支援するために、ベンチマーク、評価フレームワーク、指導訓練モデルをリリースする。
関連論文リスト
- FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain [54.06289302468199]
FinTrust は金融アプリケーションにおける LLM の信頼性を評価するためのベンチマークである。
o4-miniのようなプロプライエタリなモデルは、安全性など、ほとんどのタスクでパフォーマンスに優れています。
DeepSeek-V3のようなオープンソースモデルは、業界レベルの公正さのような特定の分野に利点がある。
論文 参考訳(メタデータ) (2025-10-17T01:45:49Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - Finance Language Model Evaluation (FLaME) [5.904572835181286]
言語モデル(LM)は、中核的な自然言語処理(NLP)タスクで印象的な機能を示している。
金融言語モデル評価のための総合ベンチマークスイート(FLaME)について紹介する。
我々は,LMを「レアソン化強化型」LMに対して包括的に研究する最初の研究論文である。
論文 参考訳(メタデータ) (2025-06-18T19:54:33Z) - KFinEval-Pilot: A Comprehensive Benchmark Suite for Korean Financial Language Understanding [6.3604109210772934]
KFinEval-Pilotは、韓国の金融ドメインで大規模言語モデル(LLM)を評価するために設計されたベンチマークスイートである。
金融知識、法的推論、金融毒性の3つの重要な領域に1,000以上のキュレートされた質問が含まれている。
論文 参考訳(メタデータ) (2025-04-17T00:12:58Z) - FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。
現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。
その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文 参考訳(メタデータ) (2025-01-30T00:06:55Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - BizBench: A Quantitative Reasoning Benchmark for Business and Finance [7.4673182865000225]
BizBenchは、現実的な金融問題を推論するモデルの能力を評価するためのベンチマークである。
新たに収集および拡張されたQAデータから、財務的にテーマ化された3つのコード生成タスクを含む。
これらのタスクは、モデルの財務的背景の知識、財務文書を解析する能力、およびコードの問題を解決する能力を評価する。
論文 参考訳(メタデータ) (2023-11-11T16:16:11Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。