論文の概要: Exploring the Vertical-Domain Reasoning Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2512.22443v1
- Date: Sat, 27 Dec 2025 02:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.057206
- Title: Exploring the Vertical-Domain Reasoning Capabilities of Large Language Models
- Title(参考訳): 大規模言語モデルの垂直領域推論能力の探索
- Authors: Jie Zhou, Xin Chen, Jie Zhang, Zhe Li,
- Abstract要約: 本研究では,垂直領域会計推論の概念を導入し,評価基準を確立する。
本稿では, GLM-6B, GLM-130B, GLM-4, OpenAI GPT-4 などの代表モデルについて, 会計推論タスクのセットを用いて評価する。
- 参考スコア(独自算出の注目度): 19.821219678322517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are reshaping learning paradigms, cognitive processes, and research methodologies across a wide range of domains. Integrating LLMs with professional fields and redefining the relationship between LLMs and domain-specific applications has become a critical challenge for promoting enterprise digital transformation and broader social development. To effectively integrate LLMs into the accounting domain, it is essential to understand their domain-specific reasoning capabilities. This study introduces the concept of vertical-domain accounting reasoning and establishes evaluation criteria by analyzing the training data characteristics of representative GLM-series models. These criteria provide a foundation for subsequent research on reasoning paradigms and offer benchmarks for improving accounting reasoning performance. Based on this framework, we evaluate several representative models, including GLM-6B, GLM-130B, GLM-4, and OpenAI GPT-4, on a set of accounting reasoning tasks. Experimental results show that different prompt engineering strategies lead to varying degrees of performance improvement across models, with GPT-4 achieving the strongest accounting reasoning capability. However, current LLMs still fall short of real-world application requirements. In particular, further optimization is needed for deployment in enterprise-level accounting scenarios to fully realize the potential value of LLMs in this domain.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い領域にわたる学習パラダイム、認知プロセス、研究方法論を再構築している。
LLMを専門分野に統合し、LLMとドメイン固有のアプリケーションとの関係を再定義することは、エンタープライズデジタルトランスフォーメーションとより広範な社会開発を促進する上で重要な課題となっている。
LLMを会計領域に効果的に統合するには、それらのドメイン固有の推論能力を理解することが不可欠である。
本研究では,垂直領域会計推論の概念を導入し,代表的なGLM系列モデルのトレーニングデータ特性を分析して評価基準を確立する。
これらの基準は、その後の推論パラダイムの研究の基礎を提供し、会計推論のパフォーマンスを改善するためのベンチマークを提供する。
本稿では,GLM-6B,GLM-130B,GLM-4,OpenAI GPT-4などの代表的なモデルについて,一連の会計推論タスクを用いて評価する。
実験結果から, GPT-4が最強のアカウンティング推論能力を達成することにより, 異なるプロンプトエンジニアリング戦略により, モデル間の性能改善の度合いが変化することが示された。
しかし、現在のLLMは依然として現実世界のアプリケーション要件に欠けています。
特に、このドメインにおけるLLMの潜在的な価値を完全に実現するために、エンタープライズレベルの会計シナリオへの展開には、さらなる最適化が必要である。
関連論文リスト
- Evaluating Accounting Reasoning Capabilities of Large Language Models [21.704851858354157]
本稿では,代表的GLMモデルのトレーニングデータ特性の分析から得られた評価基準を提案する。
GLM-6B, GLM-130B, GLM-4, OpenAI GPT-4を会計推論タスクで評価した。
その結果, 即時設計は性能に大きく影響を与え, GPT-4は最強の能力を示した。
論文 参考訳(メタデータ) (2026-01-10T22:24:52Z) - Large Language Model enabled Mathematical Modeling [2.132096006921049]
本研究では,Large Language Models (LLMs) の自然言語理解とコード生成による定式化ギャップを埋める可能性について検討する。
DeepSeek-R1は、強化学習で訓練された費用効率で高性能なモデルである。
本手法は,基礎的評価,幻覚分類の発達,緩和戦略の適用を含む。
論文 参考訳(メタデータ) (2025-10-22T17:41:42Z) - How Good are Foundation Models in Step-by-Step Embodied Reasoning? [79.15268080287505]
身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。
大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。
私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
論文 参考訳(メタデータ) (2025-09-18T17:56:30Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Exploring the Necessity of Reasoning in LLM-based Agent Scenarios [74.35956310688164]
ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案する。
LRMは計画設計のような推論集約的なタスクにおいてLLMを超越し、反復反射を優れた結果に活用する、という4つの研究課題に対処する。
LRMの強化された推論は、過剰思考や事実を無視した傾向を含む高い計算コスト、長い処理、行動上の問題を引き起こす。
論文 参考訳(メタデータ) (2025-03-14T04:34:31Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Practical Considerations for Agentic LLM Systems [5.455744338342196]
本稿では、確立されたアプリケーションパラダイムの文脈における研究コミュニティからの実行可能な洞察と考察について述べる。
すなわち、アプリケーション中心の文献における一般的な実践に基づいて、関連する研究成果を4つの幅広いカテゴリ – プランニング、メモリツール、コントロールフロー – に位置づける。
論文 参考訳(メタデータ) (2024-12-05T11:57:49Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Fine-tuning and Utilization Methods of Domain-specific LLMs [0.0]
本研究では,ドメイン固有LLMの微調整と活用のアプローチについて検討する。
データセットの選択、前処理、モデルの選択、金融におけるLLMの微調整に不可欠な考慮について詳述する。
本研究は、金融分野におけるLLMの可能性を探り、限界を特定し、改善の方向性を提案する。
論文 参考訳(メタデータ) (2024-01-01T06:22:04Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。