論文の概要: Retrieval-Augmented Reasoning for Chartered Accountancy
- arxiv url: http://arxiv.org/abs/2605.00257v1
- Date: Thu, 30 Apr 2026 21:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.770661
- Title: Retrieval-Augmented Reasoning for Chartered Accountancy
- Title(参考訳): チャータード・アカウンタリーのための検索強化推論
- Authors: Jatin Gupta, Akhil Sharma, Saransh Singhania, Ali Imam Abidi,
- Abstract要約: 本稿では,パラメータ効率の高いRetrieval-Augmented GenerationフレームワークとしてCA-ThinkFlowを提案する。
このフレームワークはパラメータの処理において高い効率と強みを示すが、本質的な推論能力は複雑な規則文を処理できない。
- 参考スコア(独自算出の注目度): 0.08749675983608168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The inception of Large Language Models (LLMs) has catalyzed AI adoption in the finance sector, yet their reliability in complex, jurisdiction-specific tasks like Indian Chartered Accountancy (CA) remains limited. The models display difficulty in executing numerical tasks which require multiple steps while also needing advanced knowledge about legal regulations and the method of scaling their operations is not feasible in settings which have limited access to resources. We present CA-ThinkFlow as a parameter-efficient Retrieval-Augmented Generation (RAG) framework which operates with a 14B, 4-bit-quantized reasoning model, 14B-DeepSeek-R1, and a layout-aware Docling extraction system which maintains document structure during extraction. CA-ThinkFlow uses a basic RAG method which automatically adds retrieved information into the prompt, while it depends on the model's built-in Chain-of-Thought (CoT) functions to create context and produce correct answers. The system we developed system operates at performance levels which match large proprietary models when we tested it on the multi-level CA-Ben benchmark, achieving Scholastic Reliability Coefficient (SRC) results which equal 68.75\% of GPT-4o and Claude 3.5 Sonnet. The framework shows high efficiency and strength in handling parameters, but essential reasoning abilities fail to process complex regulatory texts which exist in fields such as Taxation.
- Abstract(参考訳): LLM(Large Language Models)の発端は金融セクターにおけるAI導入の触媒となったが、インド憲章会計(CA)のような複雑な司法業務における信頼性は依然として限られている。
これらのモデルでは、複数のステップを必要とする数値的なタスクの実行が困難であると同時に、法規制に関する高度な知識が必要であり、リソースへのアクセスが制限された設定では、その操作をスケールする方法が実現不可能である。
本稿では,CA-ThinkFlowを,14B,4ビット量子化推論モデル,14B-DeepSeek-R1,および抽出中の文書構造を維持するレイアウト対応ドッキング抽出システムを用いて,パラメータ効率のよいRetrieval-Augmented Generation (RAG) フレームワークとして提示する。
CA-ThinkFlowは、検索した情報をプロンプトに自動的に追加する基本的なRAGメソッドを使用し、モデルに組み込まれたChain-of-Thought(CoT)関数に依存してコンテキストを作成し、正しい回答を生成する。
GPT-4o と Claude 3.5 Sonnet の 68.75 % の確率的信頼性係数 (SRC) を達成した。
この枠組みは、パラメータを扱う際に高い効率と強度を示すが、本質的な推論能力は、課税のような分野に存在する複雑な規制文書を処理できない。
関連論文リスト
- RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents [4.07447364754644]
本稿では,LLM ベースの RPA の性能を客観的に評価する多段階自動評価フレームワーク RPA-Check を紹介する。
我々は,この枠組みを,いくつかの定量化ローカルモデルを含む法医学的な訓練のための真剣なゲームであるLLM Courtに適用することで検証する。
論文 参考訳(メタデータ) (2026-04-13T16:08:03Z) - SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding [41.98672557723593]
SWEQA-Proは,多種多様な長期リポジトリと実行可能な環境から構築されたベンチマークである。
さらに,2段階のトレーニングレシピであるSupervised Fine-Tuning(SFT)とReinforcement Learning from AI Feedback(RLAIF)という,スケーラブルな合成データパイプラインを提案する。
SWE-QA-ProのGPT-4oを2.3ポイント超え、最先端モデルとのギャップを大幅に狭める。
論文 参考訳(メタデータ) (2026-03-17T05:12:48Z) - Analyzing and Internalizing Complex Policy Documents for LLM Agents [53.14898416858099]
大規模言語モデル(LLM)ベースのエージェントシステムは、多様なビジネスルールをコードするコンテキスト内ポリシー文書に依存している。
これは、パフォーマンスを保ちながら、ポリシー文書をモデルプリエントに組み込む内部化手法の開発を動機付けます。
CC-Genは4つのレベルにまたがる制御可能な複雑度を持つエージェントベンチマークジェネレータである。
論文 参考訳(メタデータ) (2025-10-13T16:30:07Z) - Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning [65.20602712957725]
Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。
我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
論文 参考訳(メタデータ) (2025-10-05T07:59:24Z) - Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-03T00:30:14Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - TrimR: Verifier-based Training-Free Thinking Compression for Efficient Test-Time Scaling [20.980976778470247]
大規模推論モデル(LRM)は、複雑な数学的、論理的、コーディングタスクに対処する際、例外的な能力を示す。
本稿では,動的チェイン・オブ・ソート(CoT)圧縮のための検証器ベース,トレーニング不要,効率的なフレームワークTrimRを提案する。
論文 参考訳(メタデータ) (2025-05-22T12:23:30Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。