論文の概要: Evaluating Accounting Reasoning Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2601.06707v1
- Date: Sat, 10 Jan 2026 22:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.94904
- Title: Evaluating Accounting Reasoning Capabilities of Large Language Models
- Title(参考訳): 大規模言語モデルの会計推論能力の評価
- Authors: Jie Zhou, Xin Chen, Jie Zhang, Hai Li, Jie Wang, Zhe Li,
- Abstract要約: 本稿では,代表的GLMモデルのトレーニングデータ特性の分析から得られた評価基準を提案する。
GLM-6B, GLM-130B, GLM-4, OpenAI GPT-4を会計推論タスクで評価した。
その結果, 即時設計は性能に大きく影響を与え, GPT-4は最強の能力を示した。
- 参考スコア(独自算出の注目度): 21.704851858354157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are transforming learning, cognition, and research across many fields. Effectively integrating them into professional domains, such as accounting, is a key challenge for enterprise digital transformation. To address this, we define vertical domain accounting reasoning and propose evaluation criteria derived from an analysis of the training data characteristics of representative GLM models. These criteria support systematic study of accounting reasoning and provide benchmarks for performance improvement. Using this framework, we evaluate GLM-6B, GLM-130B, GLM-4, and OpenAI GPT-4 on accounting reasoning tasks. Results show that prompt design significantly affects performance, with GPT-4 demonstrating the strongest capability. Despite these gains, current models remain insufficient for real-world enterprise accounting, indicating the need for further optimization to unlock their full practical value.
- Abstract(参考訳): 大規模な言語モデルは、多くの分野にわたる学習、認知、研究を変革している。
会計などの専門分野に効果的に統合することは、エンタープライズデジタルトランスフォーメーションにおける重要な課題である。
これを解決するために、垂直領域会計推論を定義し、代表的GLMモデルのトレーニングデータ特性の分析から得られた評価基準を提案する。
これらの基準は会計理論の体系的な研究を支援し、性能改善のためのベンチマークを提供する。
本稿では, GLM-6B, GLM-130B, GLM-4, OpenAI GPT-4を会計推論タスクで評価する。
その結果, 即時設計は性能に大きく影響を与え, GPT-4は最強の能力を示した。
これらの利益にもかかわらず、現在のモデルは実際の企業会計には不十分であり、その完全な実用価値を解放するためのさらなる最適化の必要性を示している。
関連論文リスト
- Exploring the Vertical-Domain Reasoning Capabilities of Large Language Models [19.821219678322517]
本研究では,垂直領域会計推論の概念を導入し,評価基準を確立する。
本稿では, GLM-6B, GLM-130B, GLM-4, OpenAI GPT-4 などの代表モデルについて, 会計推論タスクのセットを用いて評価する。
論文 参考訳(メタデータ) (2025-12-27T02:39:34Z) - GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning [116.80874591718323]
視覚言語モデル(VLM)のファミリーであるGLM-4.1VシンキングとGLM-4.5Vを提案する。
GLM-4.5Vは、ほぼ全てのタスクにおいて、同じ大きさのオープンソースモデル間で最先端のパフォーマンスを達成する。
より小型のGLM-4.1V-9Bシンキングは29のベンチマークでより大型のQwen2.5-VL-72Bよりも競争力に優れていた。
論文 参考訳(メタデータ) (2025-07-01T17:55:04Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency [3.161954199291541]
本研究は, GPT-4oの言語, 視覚, 音声, マルチモーダル能力を包括的に評価する。
GPT-4oは、言語と推論能力において、複数のドメインにわたる高い精度と効率を示す。
モデルは可変性を示し、複雑であいまいな入力を扱う際の制限に直面している。
論文 参考訳(メタデータ) (2024-06-19T19:00:21Z) - KGPA: Robustness Evaluation for Large Language Models via Cross-Domain Knowledge Graphs [5.798411590796167]
本稿では,敵対的攻撃シナリオ下での大規模言語モデルの堅牢性を体系的に評価する枠組みを提案する。
筆者らの枠組みは知識グラフの三つ子から独自のプロンプトを生成し,毒殺によって敵のプロンプトを生成する。
GPT-4-turbo > GPT-4o > GPT-3.5-turbo としてChatGPTファミリーの対角的ロバスト性が評価された。
論文 参考訳(メタデータ) (2024-06-16T04:48:43Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - GLoRE: Evaluating Logical Reasoning of Large Language Models [20.77694584450457]
GLoREは、多様なデータセットを統合し、それらを大きな言語モデルを評価するための統一フォーマットに標準化するプラットフォームである。
実験結果から,OpenAIのo1 miniやDeepSeek R1,QwQ-32Bといった大規模推論モデルの論理的推論能力は,人体の性能と教師付き微調整モデルと比較して著しく向上したことがわかった。
論文 参考訳(メタデータ) (2023-10-13T13:52:15Z) - Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text
Analytics? A Study on Several Typical Tasks [36.84636748560657]
ChatGPTやGPT-4のような大規模言語モデルは、ジェネラリストモデルの例外的な能力を示している。
このようなモデルは金融分野でどの程度有効か?
論文 参考訳(メタデータ) (2023-05-10T03:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。