論文の概要: Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in Indonesia
- arxiv url: http://arxiv.org/abs/2409.08564v1
- Date: Fri, 13 Sep 2024 06:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 17:38:30.942050
- Title: Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in Indonesia
- Title(参考訳): コードのクラック: インドネシアにおける実世界のプロフェッショナルエクササイズに関するマルチドメインLCM評価
- Authors: Fajri Koto,
- Abstract要約: IndoCareerは、さまざまな分野における職業的および専門的認定試験のパフォーマンスを評価するために設計された8,834の多重選択質問のデータセットである。
インドネシアに焦点を当てたIndoCareerは、(1)医療、(2)保険と金融、(3)創造とデザイン、(4)観光とホスピタリティ、(5)教育とトレーニング、(6)法律の6つの主要な分野にまたがる、豊かな地域コンテキストを提供している。
27の大規模言語モデルに対する包括的評価は、これらのモデルが特に、保険や金融といった強い地域状況の分野において苦戦していることを示している。
- 参考スコア(独自算出の注目度): 7.138092198708015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While knowledge evaluation in large language models has predominantly focused on academic subjects like math and physics, these assessments often fail to capture the practical demands of real-world professions. In this paper, we introduce IndoCareer, a dataset comprising 8,834 multiple-choice questions designed to evaluate performance in vocational and professional certification exams across various fields. With a focus on Indonesia, IndoCareer provides rich local contexts, spanning six key sectors: (1) healthcare, (2) insurance and finance, (3) creative and design, (4) tourism and hospitality, (5) education and training, and (6) law. Our comprehensive evaluation of 27 large language models shows that these models struggle particularly in fields with strong local contexts, such as insurance and finance. Additionally, while using the entire dataset, shuffling answer options generally maintains consistent evaluation results across models, but it introduces instability specifically in the insurance and finance sectors.
- Abstract(参考訳): 大規模言語モデルにおける知識評価は、主に数学や物理学のような学術的な主題に焦点が当てられているが、これらの評価は現実世界の専門職の実践的な要求を捉えるのに失敗することが多い。
本稿では,各種分野における職業・専門試験のパフォーマンス評価を目的とした,8,834の複数選択質問からなるデータセットであるIndoCareerを紹介する。
インドネシアに焦点を当てたIndoCareerは、(1)医療、(2)保険と金融、(3)創造とデザイン、(4)観光とホスピタリティ、(5)教育とトレーニング、(6)法律の6つの主要な分野にまたがる、豊かな地域コンテキストを提供している。
27の大規模言語モデルに対する包括的評価は、これらのモデルが特に、保険や金融といった強い地域状況の分野において苦戦していることを示している。
さらに、データセット全体を使用しながら、シャッフルの回答オプションは一般的にモデル間で一貫した評価結果を維持するが、保険や金融セクターで特に不安定を導入する。
関連論文リスト
- CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。
従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。
EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文 参考訳(メタデータ) (2024-06-17T08:40:36Z) - A Survey of Large Language Models for Financial Applications: Progress, Prospects and Challenges [60.546677053091685]
大規模言語モデル(LLM)は金融分野における機械学習アプリケーションに新たな機会を開放した。
我々は、従来のプラクティスを変革し、イノベーションを促進する可能性に焦点を当て、様々な金融業務におけるLLMの適用について検討する。
本稿では,既存の文献を言語タスク,感情分析,財務時系列,財務推論,エージェントベースモデリング,その他の応用分野に分類するための調査を紹介する。
論文 参考訳(メタデータ) (2024-06-15T16:11:35Z) - INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance [51.36387171207314]
InS-MMBenchは、保険ドメイン用に調整された最初の総合的なLVLMベンチマークである。
INS-MMBenchは12のメタタスクと22の基本的なタスクをカバーし、合計2.2Kの完全設計された複数選択質問を含んでいる。
この評価は、保険領域における様々なマルチモーダルタスクにおける、現在のLVLMの詳細なパフォーマンス解析を提供する。
論文 参考訳(メタデータ) (2024-06-13T13:31:49Z) - LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。
大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。
初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文 参考訳(メタデータ) (2024-03-19T10:11:14Z) - Balancing Specialized and General Skills in LLMs: The Impact of Modern
Tuning and Data Strategy [27.365319494865165]
論文では、提案するフレームワークの設計、データ収集、分析技術、および結果について詳述する。
LLMを専門的な文脈に効果的に適応するための実践的な洞察を企業や研究者に提供することを目的としている。
論文 参考訳(メタデータ) (2023-10-07T23:29:00Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for
Large Language Models [25.137098233579255]
FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。
FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。
その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
論文 参考訳(メタデータ) (2023-08-19T10:38:00Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。