Fugu-MT 論文翻訳(概要): MMCode: Benchmarking Multimodal Large Language Models for Code Generation with Visually Rich Programming Problems

論文の概要: MMCode: Benchmarking Multimodal Large Language Models for Code Generation with Visually Rich Programming Problems

arxiv url: http://arxiv.org/abs/2404.09486v2
Date: Thu, 26 Sep 2024 09:31:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 03:14:33.993266
Title: MMCode: Benchmarking Multimodal Large Language Models for Code Generation with Visually Rich Programming Problems
Title（参考訳）: MMCode:視覚的にリッチプログラミングの問題のあるコード生成のためのマルチモーダル大言語モデルのベンチマーク
Authors: Kaixin Li, Yuchen Tian, Qisheng Hu, Ziyang Luo, Zhiyong Huang, Jing Ma,
Abstract要約: MMCodeは、視覚的にリッチなコンテキストでアルゴリズムによる問題解決スキルを評価するための、最初のマルチモーダルコーディングデータセットである。 MMCodeには3,548の質問と6,620の画像が含まれている。
参考スコア（独自算出の注目度）: 9.56366641717606
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Programming often involves converting detailed and complex specifications into code, a process during which developers typically utilize visual aids to more effectively convey concepts. While recent developments in Large Multimodal Models have demonstrated remarkable abilities in visual reasoning and mathematical tasks, there is little work on investigating whether these models can effectively interpret visual elements for code generation. To this end, we present MMCode, the first multi-modal coding dataset for evaluating algorithmic problem-solving skills in visually rich contexts. MMCode contains 3,548 questions and 6,620 images collected from real-world programming challenges harvested from 10 code competition websites, presenting significant challenges due to the extreme demand for reasoning abilities. Our experiment results show that current state-of-the-art models struggle to solve these problems. The results highlight the lack of powerful vision-code models, and we hope MMCode can serve as an inspiration for future works in this domain. The data and code are publicly available at https://github.com/likaixin2000/MMCode.
Abstract（参考訳）: プログラミングはしばしば、詳細で複雑な仕様をコードに変換することを含みます。近年の大規模マルチモーダルモデルの開発は視覚的推論や数学的タスクにおいて顕著な能力を示しているが、これらのモデルがコード生成の視覚的要素を効果的に解釈できるかどうかについてはほとんど研究されていない。この目的のために,視覚的にリッチな文脈において,アルゴリズムによる問題解決能力を評価するための,最初のマルチモーダル符号化データセットであるMMCodeを提案する。 MMCodeには3,548の質問と6,620の画像が含まれている。実験の結果,現在の最先端モデルはこれらの問題を解決するのに苦労していることがわかった。この結果は、強力なビジョンコードモデルの欠如を浮き彫りにしています。データとコードはhttps://github.com/likaixin2000/MMCodeで公開されている。

関連論文リスト

Multilingual Multimodal Software Developer for Code Generation [35.33149292210637]
マルチ言語マルチモーダルソフトウェア開発者のMM-Coderを紹介する。 MM-Coderはビジュアルデザインインプット-UML(Unified Language)ダイアグラムとフローチャートを統合している。 MMEvalは、マルチモーダルコード生成を評価するための新しいベンチマークである。
論文参考訳（メタデータ） (2025-07-11T16:19:53Z)
The Role of Visual Modality in Multimodal Mathematical Reasoning: Challenges and Insights [26.85150689408895]
既存のマルチモーダルな数学的モデルでは視覚情報を最小限に活用できることを示す。これは、意図せずモデルに回答を誘導するテキスト情報と回答オプションの優位性に起因している。先行モデルをテストする際、微妙な視覚的差異を検知できないことは、現在の視覚知覚能力の限界を示唆している。
論文参考訳（メタデータ） (2025-03-06T07:29:33Z)
Code-Vision: Evaluating Multimodal LLMs Logic Understanding and Code Generation Capabilities [3.196398766265106]
本稿では,MLLM(Multimodal Large Language Models)の論理的理解とコード生成能力を評価するためのベンチマークであるCode-Visionを紹介する。 MLLMに対して、所定のフローチャートに基づいて、特定の機能要件を満たす正しいプログラムを生成するよう要求する。実験の結果,プロプライエタリモデルとオープンソースモデルには大きな性能差があることが示されている。
論文参考訳（メタデータ） (2025-02-17T14:25:45Z)
WarriorCoder: Learning from Expert Battles to Augment Code Large Language Models [67.15146980023621]
WarriorCoderは、専門家の戦いから学んだ新しいパラダイムで、現在のアプローチの限界に対処する。我々は、専門家のLLMが互いに挑戦する場を作り、公平な審査員による評価を行う。この競争フレームワークは、すべての参加者の強みを活用して、ゼロから新しいトレーニングデータを生成する。
論文参考訳（メタデータ） (2024-12-23T08:47:42Z)
MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。既存のベンチマークは、主に言語部分における推論能力を評価する。 MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文参考訳（メタデータ） (2024-12-05T17:08:19Z)
ScratchEval: Are GPT-4o Smarter than My Child? Evaluating Large Multimodal Models with Visual Programming Challenges [20.316852491762788]
LMMの視覚的プログラミング推論能力を評価するための新しいベンチマークであるScratchEvalを提案する。 ScratchEvalは、子どものプログラミング教育で広く使われているブロックベースのビジュアルプログラミング言語である。
論文参考訳（メタデータ） (2024-11-28T05:51:45Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。 HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文参考訳（メタデータ） (2024-10-16T09:04:57Z)
Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation [0.24578723416255752]
テキスト・ツー・コード生成の能力について,5つの大言語モデル (LLM) を評価した。 ChatGPTはこれらの典型的なプログラミング課題を、Code Llamaのようなコード特化モデルよりもはるかに効果的に処理することができる。
論文参考訳（メタデータ） (2024-09-06T10:03:49Z)
Large Language Models for Code Summarization [0.0]
大規模言語モデルがコード説明/要約でどのように機能するかをレビューする。また、自然言語記述に基づくコード生成機能についても検討する。
論文参考訳（メタデータ） (2024-05-29T12:18:51Z)
A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。 50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文参考訳（メタデータ） (2024-03-21T08:54:56Z)
Brain-Inspired Two-Stage Approach: Enhancing Mathematical Reasoning by Imitating Human Thought Processes [6.512667145063511]
本稿では,人間の思考過程を模倣し,数学的推論能力を高める新しい手法であるBrainを提案する。まず,コードLLaMA 7Bをベースとしたモデルと比較し,SOTAの性能を評価する。第二に、計画が自然言語、コード、形式言語から明示的に抽出できることが分かる。
論文参考訳（メタデータ） (2024-02-23T17:40:31Z)
MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文参考訳（メタデータ） (2024-01-30T18:09:11Z)
Predicting Defective Visual Code Changes in a Multi-Language AAA Video Game Project [54.20154707138088]
視覚的コードメトリクスを含む視覚的コード欠陥予測モデルの構築に注力する。我々は,AAAビデオゲームプロジェクトにおける歴史的不可知性から抽出した特徴を用いて,我々のモデルを検証した。欠陥予測モデルでは,ROC曲線の下での面積で全体の性能が向上することがわかった。
論文参考訳（メタデータ） (2023-09-07T00:18:43Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。