論文の概要: Exploring the Vertical-Domain Reasoning Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2512.22443v1
- Date: Sat, 27 Dec 2025 02:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.057206
- Title: Exploring the Vertical-Domain Reasoning Capabilities of Large Language Models
- Title(参考訳): 大規模言語モデルの垂直領域推論能力の探索
- Authors: Jie Zhou, Xin Chen, Jie Zhang, Zhe Li,
- Abstract要約: 本研究では,垂直領域会計推論の概念を導入し,評価基準を確立する。
本稿では, GLM-6B, GLM-130B, GLM-4, OpenAI GPT-4 などの代表モデルについて, 会計推論タスクのセットを用いて評価する。
- 参考スコア(独自算出の注目度): 19.821219678322517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are reshaping learning paradigms, cognitive processes, and research methodologies across a wide range of domains. Integrating LLMs with professional fields and redefining the relationship between LLMs and domain-specific applications has become a critical challenge for promoting enterprise digital transformation and broader social development. To effectively integrate LLMs into the accounting domain, it is essential to understand their domain-specific reasoning capabilities. This study introduces the concept of vertical-domain accounting reasoning and establishes evaluation criteria by analyzing the training data characteristics of representative GLM-series models. These criteria provide a foundation for subsequent research on reasoning paradigms and offer benchmarks for improving accounting reasoning performance. Based on this framework, we evaluate several representative models, including GLM-6B, GLM-130B, GLM-4, and OpenAI GPT-4, on a set of accounting reasoning tasks. Experimental results show that different prompt engineering strategies lead to varying degrees of performance improvement across models, with GPT-4 achieving the strongest accounting reasoning capability. However, current LLMs still fall short of real-world application requirements. In particular, further optimization is needed for deployment in enterprise-level accounting scenarios to fully realize the potential value of LLMs in this domain.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い領域にわたる学習パラダイム、認知プロセス、研究方法論を再構築している。
LLMを専門分野に統合し、LLMとドメイン固有のアプリケーションとの関係を再定義することは、エンタープライズデジタルトランスフォーメーションとより広範な社会開発を促進する上で重要な課題となっている。
LLMを会計領域に効果的に統合するには、それらのドメイン固有の推論能力を理解することが不可欠である。
本研究では,垂直領域会計推論の概念を導入し,代表的なGLM系列モデルのトレーニングデータ特性を分析して評価基準を確立する。
これらの基準は、その後の推論パラダイムの研究の基礎を提供し、会計推論のパフォーマンスを改善するためのベンチマークを提供する。
本稿では,GLM-6B,GLM-130B,GLM-4,OpenAI GPT-4などの代表的なモデルについて,一連の会計推論タスクを用いて評価する。
実験結果から, GPT-4が最強のアカウンティング推論能力を達成することにより, 異なるプロンプトエンジニアリング戦略により, モデル間の性能改善の度合いが変化することが示された。
しかし、現在のLLMは依然として現実世界のアプリケーション要件に欠けています。
特に、このドメインにおけるLLMの潜在的な価値を完全に実現するために、エンタープライズレベルの会計シナリオへの展開には、さらなる最適化が必要である。
関連論文リスト
- Large Language Model enabled Mathematical Modeling [2.132096006921049]
本研究では,Large Language Models (LLMs) の自然言語理解とコード生成による定式化ギャップを埋める可能性について検討する。
DeepSeek-R1は、強化学習で訓練された費用効率で高性能なモデルである。
本手法は,基礎的評価,幻覚分類の発達,緩和戦略の適用を含む。
論文 参考訳(メタデータ) (2025-10-22T17:41:42Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Practical Considerations for Agentic LLM Systems [5.455744338342196]
本稿では、確立されたアプリケーションパラダイムの文脈における研究コミュニティからの実行可能な洞察と考察について述べる。
すなわち、アプリケーション中心の文献における一般的な実践に基づいて、関連する研究成果を4つの幅広いカテゴリ – プランニング、メモリツール、コントロールフロー – に位置づける。
論文 参考訳(メタデータ) (2024-12-05T11:57:49Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。