論文の概要: Assessing the Capability of LLMs in Solving POSCOMP Questions
- arxiv url: http://arxiv.org/abs/2505.20338v1
- Date: Sat, 24 May 2025 13:40:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.184867
- Title: Assessing the Capability of LLMs in Solving POSCOMP Questions
- Title(参考訳): POSCOMP問題の解法におけるLCMの能力評価
- Authors: Cayo Viegas, Rohit Gheyi, Márcio Ribeiro,
- Abstract要約: 本研究では,POSCOMP試験において,大規模言語モデルが人的パフォーマンスに適合するか否かを検討する。
4つのモデルが2022年と2023年のPoSCOMP試験で評価された。
評価は、試験の典型的な複雑な問題を扱う際のモデルの熟練度を測定した。
- 参考スコア(独自算出の注目度): 1.2928804566606342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have significantly expanded the capabilities of artificial intelligence in natural language processing tasks. Despite this progress, their performance in specialized domains such as computer science remains relatively unexplored. Understanding the proficiency of LLMs in these domains is critical for evaluating their practical utility and guiding future developments. The POSCOMP, a prestigious Brazilian examination used for graduate admissions in computer science promoted by the Brazlian Computer Society (SBC), provides a challenging benchmark. This study investigates whether LLMs can match or surpass human performance on the POSCOMP exam. Four LLMs - ChatGPT-4, Gemini 1.0 Advanced, Claude 3 Sonnet, and Le Chat Mistral Large - were initially evaluated on the 2022 and 2023 POSCOMP exams. The assessments measured the models' proficiency in handling complex questions typical of the exam. LLM performance was notably better on text-based questions than on image interpretation tasks. In the 2022 exam, ChatGPT-4 led with 57 correct answers out of 69 questions, followed by Gemini 1.0 Advanced (49), Le Chat Mistral (48), and Claude 3 Sonnet (44). Similar trends were observed in the 2023 exam. ChatGPT-4 achieved the highest performance, surpassing all students who took the POSCOMP 2023 exam. LLMs, particularly ChatGPT-4, show promise in text-based tasks on the POSCOMP exam, although image interpretation remains a challenge. Given the rapid evolution of LLMs, we expanded our analysis to include more recent models - o1, Gemini 2.5 Pro, Claude 3.7 Sonnet, and o3-mini-high - evaluated on the 2022-2024 POSCOMP exams. These newer models demonstrate further improvements and consistently surpass both the average and top-performing human participants across all three years.
- Abstract(参考訳): 近年のLarge Language Models (LLM) は,自然言語処理タスクにおける人工知能の能力を大幅に拡張している。
この進歩にもかかわらず、コンピュータ科学のような専門分野における彼らの業績は、いまだに未解明のままである。
これらの領域におけるLCMの能力の理解は,その実用性を評価し,今後の発展を導く上で重要である。
POSCOMPは、ブラズリアンコンピュータ協会(SBC)が推進するコンピュータ科学の卒業試験に使用される名高いブラジルの試験であり、挑戦的なベンチマークを提供する。
本研究は,POSCOMP試験において,LLMがヒトのパフォーマンスに適合するか否かを検討した。
4機のLLM(ChatGPT-4、Gemini 1.0 Advanced、Claude 3 Sonnet、Le Chat Mistral Large)が2022年と2023年のPoSCOMP試験で評価された。
評価は、試験の典型的な複雑な問題を扱う際のモデルの熟練度を測定した。
LLMのパフォーマンスは、画像解釈タスクよりもテキストベースの質問の方が優れていた。
2022年の試験では、ChatGPT-4が69問中57問を正解し、続いてGemini 1.0 Advanced(49点)、Le Chat Mistral(48点)、Claude 3 Sonnet(44点)が続いた。
2023年の試験でも同様の傾向が見られた。
ChatGPT-4は最高成績を記録し、POSCOMP 2023の試験を受けた全ての生徒を上回った。
LLM、特にChatGPT-4はPOSCOMP試験におけるテキストベースのタスクを約束するが、画像解釈は依然として課題である。
LLMの急速な進化を踏まえ、2022-2024年のPOSCOMP試験で評価された、より最近のモデルであるo1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3-mini-highを含むように分析を拡張した。
これらの新しいモデルは、さらに改善され、平均的と最高パフォーマンスの双方を3年間にわたって一貫して上回っている。
関連論文リスト
- LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - LLMs Outperform Experts on Challenging Biology Benchmarks [0.0]
本研究は8つの生物学ベンチマークで27のフロンティア大言語モデルを体系的に評価する。
トップモデルのパフォーマンスは、Virology Capabilities Testの挑戦的なテキストのみのサブセットで4倍以上に向上した。
いくつかのモデルは、他の挑戦的なベンチマークで専門家レベルのパフォーマンスに適合または超えている。
論文 参考訳(メタデータ) (2025-05-09T15:05:57Z) - MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [64.62421656031128]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。
MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。
最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文 参考訳(メタデータ) (2025-04-13T19:35:43Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Efficacy of Large Language Models in Systematic Reviews [0.0]
本研究では,既存文献の解釈におけるLarge Language Models(LLMs)の有効性について検討した。
私たちは2020年3月から2024年5月までに88の関連論文のデータベースを作成・手書きで作成しました。
そこで我々は,Meta AIのLlama 38BとOpenAIのGPT-4oの2つの現状のLLMを,その解釈精度に基づいて評価した。
論文 参考訳(メタデータ) (2024-08-03T00:01:13Z) - Performance Evaluation of Lightweight Open-source Large Language Models in Pediatric Consultations: A Comparative Analysis [5.341999383143898]
大きな言語モデル(LLM)のオープンソース版と軽量版が潜在的な解決策として浮上するが、その性能は未検討のままである。
本研究は, 公立オンライン医療フォーラムから250件の患者相談質問をランダムに選択し, 小児科25部門から10件の質問を行った。
ChatGLM3-6BはVicuna-13BやVicuna-7B(P .001)よりも精度と完全性を示したが、すべてChatGPT-3.5より優れていた。
論文 参考訳(メタデータ) (2024-07-16T03:35:09Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - GPT-4 passes most of the 297 written Polish Board Certification Examinations [0.5461938536945723]
本研究では,ポーランド委員会認定試験(Pa'nstwowy Egzamin Specjalizacyjny, PES)における3つの生成事前学習変圧器(GPT)モデルの性能評価を行った。
GPTモデルは、特定の専門分野に関する試験において卓越した性能を示しながら、他の分野では完全に失敗するなど、大きく変化した。
論文 参考訳(メタデータ) (2024-04-29T09:08:22Z) - Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。