論文の概要: Large Language Models Acing Chartered Accountancy
- arxiv url: http://arxiv.org/abs/2506.21031v1
- Date: Thu, 26 Jun 2025 06:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.99438
- Title: Large Language Models Acing Chartered Accountancy
- Title(参考訳): チャータード・アカウンタリーに影響を及ぼす大規模言語モデル
- Authors: Jatin Gupta, Akhil Sharma, Saransh Singhania, Mohammad Adnan, Sakshi Deo, Ali Imam Abidi, Keshav Gupta,
- Abstract要約: 本稿では, LLMの財務的, 法律的, 量的推論能力の評価に特化して設計されたCA-Benについて紹介する。
GPT 4o, LLAMA 3.3 70B, LLAMA 3.1 405B, MISTRAL Large, Claude 3.5 Sonnet, Microsoft Phi 4 の6つの著名なLCMを標準化プロトコルを用いて評価した。
結果から,Claude 3.5 Sonnet と GPT-4o は,特に概念的および法的推論において,他よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.4711628883579317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced intelligent systems, particularly Large Language Models (LLMs), are significantly reshaping financial practices through advancements in Natural Language Processing (NLP). However, the extent to which these models effectively capture and apply domain-specific financial knowledge remains uncertain. Addressing a critical gap in the expansive Indian financial context, this paper introduces CA-Ben, a Chartered Accountancy benchmark specifically designed to evaluate the financial, legal, and quantitative reasoning capabilities of LLMs. CA-Ben comprises structured question-answer datasets derived from the rigorous examinations conducted by the Institute of Chartered Accountants of India (ICAI), spanning foundational, intermediate, and advanced CA curriculum stages. Six prominent LLMs i.e. GPT 4o, LLAMA 3.3 70B, LLAMA 3.1 405B, MISTRAL Large, Claude 3.5 Sonnet, and Microsoft Phi 4 were evaluated using standardized protocols. Results indicate variations in performance, with Claude 3.5 Sonnet and GPT-4o outperforming others, especially in conceptual and legal reasoning. Notable challenges emerged in numerical computations and legal interpretations. The findings emphasize the strengths and limitations of current LLMs, suggesting future improvements through hybrid reasoning and retrieval-augmented generation methods, particularly for quantitative analysis and accurate legal interpretation.
- Abstract(参考訳): 先進的なインテリジェントシステム、特にLarge Language Models(LLM)は、自然言語処理(NLP)の進歩を通じて、金融の実践を大きく変えつつある。
しかし、これらのモデルがドメイン固有の財務知識を効果的に捉え、適用する範囲は、まだ不明である。
インドの金融状況における重要なギャップに対処するため,本論文では,LCMの財務的,法的,定量的な推論能力を評価するために特別に設計された,チャータード・アカウンタリー・ベンチマークであるCA-Benを紹介する。
CA-Benは、インド認証会計士協会(ICAI)が実施した厳格な試験から得られた、基礎的、中間的、先進的なCAカリキュラム段階にまたがる構造化された質問応答データセットから構成される。
GPT 4o, LLAMA 3.3 70B, LLAMA 3.1 405B, MISTRAL Large, Claude 3.5 Sonnet, Microsoft Phi 4 の6つの著名なLCMを標準化プロトコルを用いて評価した。
結果から,Claude 3.5 Sonnet と GPT-4o は,特に概念的および法的推論において,他よりも優れた性能を示した。
数値計算や法解釈に顕著な課題が現れた。
本研究は,従来のLLMの長所と短所を強調し,特に定量的解析と正確な法解釈において,ハイブリッド推論と検索拡張生成手法による将来的な改善を示唆するものである。
関連論文リスト
- GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - Large Language Model in Financial Regulatory Interpretation [0.276240219662896]
本研究では、複雑な金融規制を解釈するための分析ツールとして、LLM(Large Language Models)の革新的利用について検討する。
主な目的は、動詞の蒸留や複雑な規制文書の抽出においてLLMを導く効果的なプロンプトを設計することである。
この新たなアプローチは、グローバル金融機関の金融報告・リスクマネジメントシステムにおける規制委任事項の実施を円滑化することを目的としている。
論文 参考訳(メタデータ) (2024-05-10T20:45:40Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models [31.961563103990432]
本稿では,LLMの金融分野の知識と実践能力を評価するためのベンチマークであるFinEvalについて述べる。
データセットには、金融学術知識、金融産業知識、金融セキュリティ知識、金融エージェントの4つの重要な領域に分類される8,351の質問が含まれている。
以上の結果から、Claude 3.5-Sonnetは、ゼロショット設定下において、すべての金融ドメインカテゴリで72.9の最大重み付き平均スコアを達成している。
論文 参考訳(メタデータ) (2023-08-19T10:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。