論文の概要: KemenkeuGPT: Leveraging a Large Language Model on Indonesia's Government Financial Data and Regulations to Enhance Decision Making
- arxiv url: http://arxiv.org/abs/2407.21459v1
- Date: Wed, 31 Jul 2024 09:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:22:17.962573
- Title: KemenkeuGPT: Leveraging a Large Language Model on Indonesia's Government Financial Data and Regulations to Enhance Decision Making
- Title(参考訳): KemenkeuGPT: インドネシア政府の財務データに基づく大規模言語モデルの導入と意思決定の促進のための規制
- Authors: Gilang Fajar Febrian, Grazziela Figueredo,
- Abstract要約: 本研究では,インドネシアの金融データと規制に対処する大規模言語モデルの可能性を検討する。
本研究では,LangChain with Retrieval-Augmented Generation (RAG)を用いたケメンケウGPTの開発を反復的に進める。
モデルの精度は35%から61%に改善され、正しさは48%から64%に向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data is crucial for evidence-based policymaking and enhancing public services, including those at the Ministry of Finance of the Republic of Indonesia. However, the complexity and dynamic nature of governmental financial data and regulations can hinder decision-making. This study investigates the potential of Large Language Models (LLMs) to address these challenges, focusing on Indonesia's financial data and regulations. While LLMs are effective in the financial sector, their use in the public sector in Indonesia is unexplored. This study undertakes an iterative process to develop KemenkeuGPT using the LangChain with Retrieval-Augmented Generation (RAG), prompt engineering and fine-tuning. The dataset from 2003 to 2023 was collected from the Ministry of Finance, Statistics Indonesia and the International Monetary Fund (IMF). Surveys and interviews with Ministry officials informed, enhanced and fine-tuned the model. We evaluated the model using human feedback, LLM-based evaluation and benchmarking. The model's accuracy improved from 35% to 61%, with correctness increasing from 48% to 64%. The Retrieval-Augmented Generation Assessment (RAGAS) framework showed that KemenkeuGPT achieved 44% correctness with 73% faithfulness, 40% precision and 60% recall, outperforming several other base models. An interview with an expert from the Ministry of Finance indicated that KemenkeuGPT has the potential to become an essential tool for decision-making. These results are expected to improve with continuous human feedback.
- Abstract(参考訳): データは証拠に基づく政策立案と公共サービスの向上に不可欠であり、その中にはインドネシア大蔵省も含まれる。
しかし、政府の財務データや規制の複雑さと動的な性質は意思決定を妨げる可能性がある。
本研究では,インドネシアの金融データと規制に着目し,これらの課題に対処する大規模言語モデル(LLM)の可能性を検討する。
LLMは金融分野では有効であるが、インドネシアの公共部門では使われていない。
本研究では,LangChain with Retrieval-Augmented Generation (RAG)を用いたケメンケウGPTの開発を反復的に進める。
2003年から2023年までのデータセットは、インドネシア財務省とIMF(国際通貨基金)から収集された。
財務省の職員による調査とインタビューは、このモデルに情報を提供し、強化し、微調整した。
人間のフィードバック, LLMに基づく評価, ベンチマークを用いて, モデルの評価を行った。
モデルの精度は35%から61%に改善され、正しさは48%から64%に向上した。
Retrieval-Augmented Generation Assessment (RAGAS) フレームワークは、ケメンキューGPTが73%の忠実さ、40%の正確さ、60%のリコールで44%の正当性を達成し、他のいくつかのベースモデルを上回ったことを示している。
財務省の専門家とのインタビューは、ケメンケウGPTが意思決定に不可欠なツールになる可能性を示唆している。
これらの結果は、継続的な人間のフィードバックによって改善されることが期待されている。
関連論文リスト
- Evaluating Large Language Models on Financial Report Summarization: An Empirical Study [9.28042182186057]
我々は3つの最先端大言語モデル(LLM)の比較研究を行っている。
我々の主な動機は、これらのモデルがどのように金融の中で活用できるかを探求することであり、正確さ、文脈的関連性、誤った情報や誤解を招く情報に対する堅牢性を要求する分野である。
本稿では,定量的メトリクス(精度,リコールなど)と質的分析(コンテキスト適合性,一貫性など)を統合し,各モデルの出力品質の全体像を提供する,革新的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-11T10:36:04Z) - DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - Efficacy of Large Language Models in Systematic Reviews [0.0]
本研究では,既存文献の解釈におけるLarge Language Models(LLMs)の有効性について検討した。
私たちは2020年3月から2024年5月までに88の関連論文のデータベースを作成・手書きで作成しました。
そこで我々は,Meta AIのLlama 38BとOpenAIのGPT-4oの2つの現状のLLMを,その解釈精度に基づいて評価した。
論文 参考訳(メタデータ) (2024-08-03T00:01:13Z) - Fine-Tuning Gemma-7B for Enhanced Sentiment Analysis of Financial News Headlines [4.198715347024138]
我々はNLP(Natural Language Processing)とLLM(Large Language Models)を使って、小売投資家の視点から感情を分析する。
感性分類における効果を評価するために, distilbert-base-uncased, Llama, gemma-7b などいくつかのモデルを微調整した。
実験の結果,精巧なgemma-7bモデルは他のモデルよりも優れており,高い精度,リコール,F1スコアが得られた。
論文 参考訳(メタデータ) (2024-06-19T15:20:19Z) - DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data [65.5290035371111]
本稿では,高校・学部レベルの数学競争問題から得られたリーン4証明データを生成する手法を提案する。
この合成データセットでDeepSeekMath 7Bモデルを微調整します。
我々のモデルは、Lean 4 Formalized International Mathematical Olympiad (FIMO)ベンチマークで148の問題を5つ証明しましたが、GPT-4は証明できませんでした。
論文 参考訳(メタデータ) (2024-05-23T09:03:42Z) - ESGReveal: An LLM-based approach for extracting structured data from ESG
reports [5.467389155759699]
ESGRevealは企業報告から環境・社会・ガバナンス(ESG)データを効率的に抽出・分析するための革新的な手法である。
このアプローチは、検索拡張生成(RAG)技術で強化されたLarge Language Models (LLM)を利用する。
この効果は、2022年に香港証券取引所に上場した様々な分野の166社のESGレポートを用いて評価された。
論文 参考訳(メタデータ) (2023-12-25T06:44:32Z) - CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market [61.59326951366202]
我々は、中国株式政策検索データセット(CSPRD)を導入して、新たな課題である政策検索を提案する。
CSPRDは、中国の政策コーパスの10k以上の項目から、経験豊富な専門家によってラベル付けされた700以上のパスを提供する。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
論文 参考訳(メタデータ) (2023-09-08T15:40:54Z) - Biomedical image analysis competitions: The state of current
participation practice [143.52578599912326]
我々は,バイオメディカルイメージング分析の特定の分野におけるアルゴリズム開発の現状を明らかにするための調査を設計した。
この調査は、参加者の専門知識と作業環境、選択した戦略、およびアルゴリズムの特徴をカバーした。
全体として、すべてのソリューションの94%はディープラーニングベースのものだ。そのうち84%は標準アーキテクチャに基づいていた。
論文 参考訳(メタデータ) (2022-12-16T16:44:46Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Trends in eBusiness and eGovernment [0.0]
第1章はeBusinessにおける批判的なレビューとケーススタディであり、特にデジタル通貨資源に注目している。
第2章では、UTAUTモデルをリスク理論に取り入れて、m- Governmentサービスの使用意図への影響を探究する。
第3章は、ヨハネスブルグ市における自治体のE調達プロセスにおけるジェンダーインクリシティのレベルを評価することを目的としている。
論文 参考訳(メタデータ) (2021-04-02T17:53:17Z) - Explanations of Machine Learning predictions: a mandatory step for its
application to Operational Processes [61.20223338508952]
信用リスクモデリングは重要な役割を果たす。
近年,機械学習や深層学習の手法が採用されている。
この分野における説明可能性問題に LIME 手法を適用することを提案する。
論文 参考訳(メタデータ) (2020-12-30T10:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。