論文の概要: MMCode: Evaluating Multi-Modal Code Large Language Models with Visually Rich Programming Problems
- arxiv url: http://arxiv.org/abs/2404.09486v1
- Date: Mon, 15 Apr 2024 06:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:19:30.748960
- Title: MMCode: Evaluating Multi-Modal Code Large Language Models with Visually Rich Programming Problems
- Title(参考訳): MMCode:視覚的にリッチなプログラミング問題を伴うマルチモーダルコード大言語モデルの評価
- Authors: Kaixin Li, Yuchen Tian, Qisheng Hu, Ziyang Luo, Jing Ma,
- Abstract要約: MMCodeは、視覚的にリッチなコンテキストでアルゴリズムによる問題解決スキルを評価するための、最初のマルチモーダルコーディングデータセットである。
MMCodeには3,548の質問と6,620の画像が含まれている。
- 参考スコア(独自算出の注目度): 9.155143207283295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Programming often involves converting detailed and complex specifications into code, a process during which developers typically utilize visual aids to more effectively convey concepts. While recent developments in Large Multimodal Models have demonstrated remarkable abilities in visual reasoning and mathematical tasks, there is little work on investigating whether these models can effectively interpret visual elements for code generation. To this end, we present MMCode, the first multi-modal coding dataset for evaluating algorithmic problem-solving skills in visually rich contexts. MMCode contains 3,548 questions and 6,620 images collected from real-world programming challenges harvested from 10 code competition websites, presenting significant challenges due to the extreme demand for reasoning abilities. Our experiment results show that current state-of-the-art models struggle to solve these problems. The results highlight the lack of powerful vision-code models, and we hope MMCode can serve as an inspiration for future works in this domain. The data and code are publicly available at https://github.com/happylkx/MMCode.
- Abstract(参考訳): プログラミングはしばしば、詳細で複雑な仕様をコードに変換することを含みます。
近年の大規模マルチモーダルモデルの開発は視覚的推論や数学的タスクにおいて顕著な能力を示しているが、これらのモデルがコード生成の視覚的要素を効果的に解釈できるかどうかについてはほとんど研究されていない。
この目的のために,視覚的にリッチな文脈において,アルゴリズムによる問題解決能力を評価するための,最初のマルチモーダル符号化データセットであるMMCodeを提案する。
MMCodeには3,548の質問と6,620の画像が含まれている。
実験の結果,現在の最先端モデルはこれらの問題を解決するのに苦労していることがわかった。
この結果は、強力なビジョンコードモデルの欠如を浮き彫りにしています。
データとコードはhttps://github.com/happylkx/MMCode.comで公開されている。
関連論文リスト
- Code-Vision: Evaluating Multimodal LLMs Logic Understanding and Code Generation Capabilities [3.196398766265106]
本稿では,MLLM(Multimodal Large Language Models)の論理的理解とコード生成能力を評価するためのベンチマークであるCode-Visionを紹介する。
MLLMに対して、所定のフローチャートに基づいて、特定の機能要件を満たす正しいプログラムを生成するよう要求する。
実験の結果,プロプライエタリモデルとオープンソースモデルには大きな性能差があることが示されている。
論文 参考訳(メタデータ) (2025-02-17T14:25:45Z) - WarriorCoder: Learning from Expert Battles to Augment Code Large Language Models [67.15146980023621]
WarriorCoderは、専門家の戦いから学んだ新しいパラダイムで、現在のアプローチの限界に対処する。
我々は、専門家のLLMが互いに挑戦する場を作り、公平な審査員による評価を行う。
この競争フレームワークは、すべての参加者の強みを活用して、ゼロから新しいトレーニングデータを生成する。
論文 参考訳(メタデータ) (2024-12-23T08:47:42Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - ScratchEval: Are GPT-4o Smarter than My Child? Evaluating Large Multimodal Models with Visual Programming Challenges [20.316852491762788]
LMMの視覚的プログラミング推論能力を評価するための新しいベンチマークであるScratchEvalを提案する。
ScratchEvalは、子どものプログラミング教育で広く使われているブロックベースのビジュアルプログラミング言語である。
論文 参考訳(メタデータ) (2024-11-28T05:51:45Z) - Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation [0.24578723416255752]
テキスト・ツー・コード生成の能力について,5つの大言語モデル (LLM) を評価した。
ChatGPTはこれらの典型的なプログラミング課題を、Code Llamaのようなコード特化モデルよりもはるかに効果的に処理することができる。
論文 参考訳(メタデータ) (2024-09-06T10:03:49Z) - Large Language Models for Code Summarization [0.0]
大規模言語モデルがコード説明/要約でどのように機能するかをレビューする。
また、自然言語記述に基づくコード生成機能についても検討する。
論文 参考訳(メタデータ) (2024-05-29T12:18:51Z) - Brain-Inspired Two-Stage Approach: Enhancing Mathematical Reasoning by
Imitating Human Thought Processes [6.512667145063511]
本稿では,人間の思考過程を模倣し,数学的推論能力を高める新しい手法であるBrainを提案する。
まず,コードLLaMA 7Bをベースとしたモデルと比較し,SOTAの性能を評価する。
第二に、計画が自然言語、コード、形式言語から明示的に抽出できることが分かる。
論文 参考訳(メタデータ) (2024-02-23T17:40:31Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - Predicting Defective Visual Code Changes in a Multi-Language AAA Video
Game Project [54.20154707138088]
視覚的コードメトリクスを含む視覚的コード欠陥予測モデルの構築に注力する。
我々は,AAAビデオゲームプロジェクトにおける歴史的不可知性から抽出した特徴を用いて,我々のモデルを検証した。
欠陥予測モデルでは,ROC曲線の下での面積で全体の性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-09-07T00:18:43Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。