Fugu-MT 論文翻訳(概要): Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in Indonesia

論文の概要: Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in Indonesia

arxiv url: http://arxiv.org/abs/2409.08564v1
Date: Fri, 13 Sep 2024 06:34:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 17:38:30.942050
Title: Cracking the Code: Multi-domain LLM Evaluation on Real-World Professional Exams in Indonesia
Title（参考訳）: コードのクラック: インドネシアにおける実世界のプロフェッショナルエクササイズに関するマルチドメインLCM評価
Authors: Fajri Koto,
Abstract要約: IndoCareerは、さまざまな分野における職業的および専門的認定試験のパフォーマンスを評価するために設計された8,834の多重選択質問のデータセットである。インドネシアに焦点を当てたIndoCareerは、(1)医療、(2)保険と金融、(3)創造とデザイン、(4)観光とホスピタリティ、(5)教育とトレーニング、(6)法律の6つの主要な分野にまたがる、豊かな地域コンテキストを提供している。 27の大規模言語モデルに対する包括的評価は、これらのモデルが特に、保険や金融といった強い地域状況の分野において苦戦していることを示している。
参考スコア（独自算出の注目度）: 7.138092198708015
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While knowledge evaluation in large language models has predominantly focused on academic subjects like math and physics, these assessments often fail to capture the practical demands of real-world professions. In this paper, we introduce IndoCareer, a dataset comprising 8,834 multiple-choice questions designed to evaluate performance in vocational and professional certification exams across various fields. With a focus on Indonesia, IndoCareer provides rich local contexts, spanning six key sectors: (1) healthcare, (2) insurance and finance, (3) creative and design, (4) tourism and hospitality, (5) education and training, and (6) law. Our comprehensive evaluation of 27 large language models shows that these models struggle particularly in fields with strong local contexts, such as insurance and finance. Additionally, while using the entire dataset, shuffling answer options generally maintains consistent evaluation results across models, but it introduces instability specifically in the insurance and finance sectors.
Abstract（参考訳）: 大規模言語モデルにおける知識評価は、主に数学や物理学のような学術的な主題に焦点が当てられているが、これらの評価は現実世界の専門職の実践的な要求を捉えるのに失敗することが多い。本稿では,各種分野における職業・専門試験のパフォーマンス評価を目的とした,8,834の複数選択質問からなるデータセットであるIndoCareerを紹介する。インドネシアに焦点を当てたIndoCareerは、(1)医療、(2)保険と金融、(3)創造とデザイン、(4)観光とホスピタリティ、(5)教育とトレーニング、(6)法律の6つの主要な分野にまたがる、豊かな地域コンテキストを提供している。 27の大規模言語モデルに対する包括的評価は、これらのモデルが特に、保険や金融といった強い地域状況の分野において苦戦していることを示している。さらに、データセット全体を使用しながら、シャッフルの回答オプションは一般的にモデル間で一貫した評価結果を維持するが、保険や金融セクターで特に不安定を導入する。

関連論文リスト

Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey [49.1574468325115]
我々は総合的な調査を行い、LALM評価のための体系的な分類法を提案する。各カテゴリの詳細な概要と,この分野の課題について紹介する。調査した論文の収集を公表し、現在進行中の分野の発展を支援するため、積極的に維持していく。
論文参考訳（メタデータ） (2025-05-21T19:17:29Z)
R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation [75.33671166231096]
我々は、Reasoning Bench(R-Bench)と呼ばれる、大学院レベルの多学派、英語の中国語ベンチマークを導入する。 RBenchは108の被験者に1,094の質問を、83の被験者に665の質問を、マルチモーダルなモデルテストに当てはめている。我々は,OpenAI o1,GPT-4o,DeepSeek-R1など,広く使用されているモデルを評価した。
論文参考訳（メタデータ） (2025-05-04T07:48:36Z)
KFinEval-Pilot: A Comprehensive Benchmark Suite for Korean Financial Language Understanding [6.3604109210772934]
KFinEval-Pilotは、韓国の金融ドメインで大規模言語モデル(LLM)を評価するために設計されたベンチマークスイートである。金融知識、法的推論、金融毒性の3つの重要な領域に1,000以上のキュレートされた質問が含まれている。
論文参考訳（メタデータ） (2025-04-17T00:12:58Z)
The Digital Cybersecurity Expert: How Far Have We Come? [49.89857422097055]
我々は,サイバーセキュリティの専門家が期待する345の知識ポイントに基づいた,きめ細かいサイバーセキュリティ評価フレームワークであるCSEBenchmarkを開発した。 CSEBenchmarkで12のポピュラーな大言語モデル(LLM)を評価し、最高のパフォーマンスモデルでさえ全体の精度は85.42%に過ぎなかった。各LSMにおける特定の知識ギャップを特定し,対処することにより,事前の誤り予測の修正において最大84%の改善が達成される。
論文参考訳（メタデータ） (2025-04-16T05:36:28Z)
GPBench: A Comprehensive and Fine-Grained Benchmark for Evaluating Large Language Models as General Practitioners [12.208184074411896]
一般開業医(GP)は、継続的かつ包括的な医療サービスを提供することで、一次医療システムの基盤として機能する。実践のコミュニティ指向性、トレーニングの不均一さ、リソースギャップのため、GP間の臨床習熟度は地域や医療環境によって大きく異なる可能性がある。大言語モデル(LLM)は臨床および医学応用において大きな可能性を示しており、一般的な実践を支援するための有望なツールとなっている。 GPの日常業務においてLLMがいかに効果的に意思決定できるかを評価するため,GPBenchを設計した。
論文参考訳（メタデータ） (2025-03-22T01:02:44Z)
InsQABench: Benchmarking Chinese Insurance Domain Question Answering with Large Language Models [29.948490682244923]
InsQABenchは中国の保険セクターのベンチマークデータセットである。保険常識知識、保険構造データベース、保険非構造化文書の3つに分類される。 InsQABenchの微調整は性能を著しく向上させる。
論文参考訳（メタデータ） (2025-01-19T04:53:20Z)
Evaluating Large Language Models on Financial Report Summarization: An Empirical Study [9.28042182186057]
我々は3つの最先端大言語モデル(LLM)の比較研究を行っている。我々の主な動機は、これらのモデルがどのように金融の中で活用できるかを探求することであり、正確さ、文脈的関連性、誤った情報や誤解を招く情報に対する堅牢性を要求する分野である。本稿では,定量的メトリクス(精度,リコールなど)と質的分析(コンテキスト適合性,一貫性など)を統合し,各モデルの出力品質の全体像を提供する,革新的な評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-11T10:36:04Z)
CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文参考訳（メタデータ） (2024-07-02T14:34:36Z)
Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。 EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文参考訳（メタデータ） (2024-06-17T08:40:36Z)
A Survey of Large Language Models for Financial Applications: Progress, Prospects and Challenges [60.546677053091685]
大規模言語モデル(LLM)は金融分野における機械学習アプリケーションに新たな機会を開放した。我々は、従来のプラクティスを変革し、イノベーションを促進する可能性に焦点を当て、様々な金融業務におけるLLMの適用について検討する。本稿では,既存の文献を言語タスク,感情分析,財務時系列,財務推論,エージェントベースモデリング,その他の応用分野に分類するための調査を紹介する。
論文参考訳（メタデータ） (2024-06-15T16:11:35Z)
INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance [51.36387171207314]
InS-MMBenchは、保険ドメイン用に調整された最初の総合的なLVLMベンチマークである。 INS-MMBenchは12のメタタスクと22の基本的なタスクをカバーし、合計2.2Kの完全設計された複数選択質問を含んでいる。この評価は、保険領域における様々なマルチモーダルタスクにおける、現在のLVLMの詳細なパフォーマンス解析を提供する。
論文参考訳（メタデータ） (2024-06-13T13:31:49Z)
LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文参考訳（メタデータ） (2024-03-19T10:11:14Z)
ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文参考訳（メタデータ） (2023-09-14T16:54:34Z)
FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models [25.137098233579255]
FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。 FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
論文参考訳（メタデータ） (2023-08-19T10:38:00Z)
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文参考訳（メタデータ） (2023-05-30T03:00:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。