論文の概要: MMCode: Benchmarking Multimodal Large Language Models for Code Generation with Visually Rich Programming Problems
- arxiv url: http://arxiv.org/abs/2404.09486v2
- Date: Thu, 26 Sep 2024 09:31:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-28 01:51:34.117799
- Title: MMCode: Benchmarking Multimodal Large Language Models for Code Generation with Visually Rich Programming Problems
- Title(参考訳): MMCode:視覚的にリッチプログラミングの問題のあるコード生成のためのマルチモーダル大言語モデルのベンチマーク
- Authors: Kaixin Li, Yuchen Tian, Qisheng Hu, Ziyang Luo, Zhiyong Huang, Jing Ma,
- Abstract要約: MMCodeは、視覚的にリッチなコンテキストでアルゴリズムによる問題解決スキルを評価するための、最初のマルチモーダルコーディングデータセットである。
MMCodeには3,548の質問と6,620の画像が含まれている。
- 参考スコア(独自算出の注目度): 9.56366641717606
- License:
- Abstract: Programming often involves converting detailed and complex specifications into code, a process during which developers typically utilize visual aids to more effectively convey concepts. While recent developments in Large Multimodal Models have demonstrated remarkable abilities in visual reasoning and mathematical tasks, there is little work on investigating whether these models can effectively interpret visual elements for code generation. To this end, we present MMCode, the first multi-modal coding dataset for evaluating algorithmic problem-solving skills in visually rich contexts. MMCode contains 3,548 questions and 6,620 images collected from real-world programming challenges harvested from 10 code competition websites, presenting significant challenges due to the extreme demand for reasoning abilities. Our experiment results show that current state-of-the-art models struggle to solve these problems. The results highlight the lack of powerful vision-code models, and we hope MMCode can serve as an inspiration for future works in this domain. The data and code are publicly available at https://github.com/likaixin2000/MMCode.
- Abstract(参考訳): プログラミングはしばしば、詳細で複雑な仕様をコードに変換することを含みます。
近年の大規模マルチモーダルモデルの開発は視覚的推論や数学的タスクにおいて顕著な能力を示しているが、これらのモデルがコード生成の視覚的要素を効果的に解釈できるかどうかについてはほとんど研究されていない。
この目的のために,視覚的にリッチな文脈において,アルゴリズムによる問題解決能力を評価するための,最初のマルチモーダル符号化データセットであるMMCodeを提案する。
MMCodeには3,548の質問と6,620の画像が含まれている。
実験の結果,現在の最先端モデルはこれらの問題を解決するのに苦労していることがわかった。
この結果は、強力なビジョンコードモデルの欠如を浮き彫りにしています。
データとコードはhttps://github.com/likaixin2000/MMCodeで公開されている。
関連論文リスト
- Visual Haystacks: Answering Harder Questions About Sets of Images [63.296342841358815]
本稿では,Multi-Image Visual Question Answering(MIQA)の課題について検討する。
大量の画像と自然言語クエリが与えられたら、そのタスクは関連性があり、接地された応答を生成することだ。
大規模マルチモーダルモデル(LMM)に適した新しい検索/QAフレームワークであるMIRAGEを紹介する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - Beyond Functional Correctness: Investigating Coding Style Inconsistencies in Large Language Models [28.295926947968574]
大規模言語モデル(LLM)は、コード生成の分野にパラダイムシフトをもたらした。
我々は、コードLLMによって生成されたコードと、人間の開発者が書いたコードとのコーディングスタイルの違いを経験的に分析する。
論文 参考訳(メタデータ) (2024-06-29T14:56:11Z) - Large Language Models for Code Summarization [0.0]
大規模言語モデルがコード説明/要約でどのように機能するかをレビューする。
また、自然言語記述に基づくコード生成機能についても検討する。
論文 参考訳(メタデータ) (2024-05-29T12:18:51Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Brain-Inspired Two-Stage Approach: Enhancing Mathematical Reasoning by
Imitating Human Thought Processes [6.512667145063511]
本稿では,人間の思考過程を模倣し,数学的推論能力を高める新しい手法であるBrainを提案する。
まず,コードLLaMA 7Bをベースとしたモデルと比較し,SOTAの性能を評価する。
第二に、計画が自然言語、コード、形式言語から明示的に抽出できることが分かる。
論文 参考訳(メタデータ) (2024-02-23T17:40:31Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - MoTCoder: Elevating Large Language Models with Modular of Thought for
Challenging Programming Tasks [60.54009036297301]
本稿では,タスクの論理的サブタスクとサブモジュールへの分解を促進するため,MoT命令チューニングの先駆的フレームワークを提案する。
調査の結果,MoTCoderはサブモジュールの栽培と利用を通じて,生成したソリューションのモジュラリティと正しさの両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-26T08:49:57Z) - Predicting Defective Visual Code Changes in a Multi-Language AAA Video
Game Project [54.20154707138088]
視覚的コードメトリクスを含む視覚的コード欠陥予測モデルの構築に注力する。
我々は,AAAビデオゲームプロジェクトにおける歴史的不可知性から抽出した特徴を用いて,我々のモデルを検証した。
欠陥予測モデルでは,ROC曲線の下での面積で全体の性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-09-07T00:18:43Z) - Techniques to Improve Neural Math Word Problem Solvers [0.0]
最近のニューラルベースアプローチは、主に言語モデルを用いて問題テキストをエンコードし、量や演算子を反復的に数学的表現をデコードする。
本稿では,質問文を完全に活用し,段階的可換法則を保存するエンコーダ・デコーダアーキテクチャを提案する。
確立された4つのベンチマーク実験により、我々のフレームワークは最先端のニューラルMWPソルバより優れていることが示された。
論文 参考訳(メタデータ) (2023-02-06T22:41:51Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - A Sketch-Based Neural Model for Generating Commit Messages from Diffs [0.5239589676872304]
コミットメッセージは、特に大規模チームで働く場合、ソフトウェア開発に重要な影響を与える。
コード差分をコミットメッセージに変換するために、ニューラルマシン翻訳(NMT)技術を適用します。
このタスクのための改善されたスケッチベースのエンコーダを紹介します。
論文 参考訳(メタデータ) (2021-04-08T21:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。