論文の概要: OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution
- arxiv url: http://arxiv.org/abs/2505.04606v1
- Date: Wed, 07 May 2025 17:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.178011
- Title: OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution
- Title(参考訳): OmniGIRL:GitHubの課題解決のための多言語およびマルチモーダルベンチマーク
- Authors: Lianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng,
- Abstract要約: GitHubのイシュー解決タスクは、リポジトリで報告された問題を自動的に解決することを目的としている。
大規模言語モデル(LLM)の進歩に伴い,この課題が注目されている。
我々は、多言語、マルチモーダル、マルチドメインのGitHub Issue ResoLutionベンチマークであるOmniGIRLを提案する。
- 参考スコア(独自算出の注目度): 34.087547492498224
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The GitHub issue resolution task aims to resolve issues reported in repositories automatically. With advances in large language models (LLMs), this task has gained increasing attention, and several benchmarks are proposed to evaluate the issue resolution ability of LLMs. However, existing benchmarks have three main limitations. First, current benchmarks focus on a single programming language, limiting the evaluation of issues from repositories across different languages. Second, they usually cover a narrow range of domains, which may fail to represent the diversity of real-world issues. Third, existing benchmarks rely solely on textual information in issue descriptions, overlooking multimodal information such as images in issues. In this paper, we propose OmniGIRL, a GitHub Issue ResoLution benchmark that is multilingual, multimodal, and multi-domain. OmniGIRL includes 959 task instances, which are collected from repositories across four programming languages (i.e., Python, JavaScript, TypeScript, and Java) and eight different domains. Our evaluation shows that current LLMs show limited performances on OmniGIRL. Notably, the best-performing model, GPT-4o, resolves only 8.6% of the issues. Besides, we find that current LLMs struggle to resolve issues requiring understanding images. The best performance is achieved by Claude-3.5-Sonnet, which resolves only 10.5% of the issues with image information. Finally, we analyze the reasons behind current LLMs' failure on OmniGIRL, providing insights for future improvements.
- Abstract(参考訳): GitHubのイシュー解決タスクは、リポジトリで報告された問題を自動的に解決することを目的としている。
大規模言語モデル(LLM)の進歩に伴い,この課題が注目され,LLMの課題解決能力を評価するために,いくつかのベンチマークが提案されている。
しかし、既存のベンチマークには3つの大きな制限がある。
まず、現在のベンチマークは単一のプログラミング言語に焦点を当て、異なる言語にわたるリポジトリからのイシューの評価を制限する。
第二に、それらは通常狭い範囲のドメインをカバーしており、現実世界の問題の多様性を表現できない可能性がある。
第3に、既存のベンチマークは問題記述におけるテキスト情報のみに依存しており、問題中の画像のようなマルチモーダル情報を見渡している。
本稿では,多言語,マルチモーダル,マルチドメインのGitHub Issue ResoLutionベンチマークであるOmniGIRLを提案する。
OmniGIRLには959のタスクインスタンスが含まれており、4つのプログラミング言語(Python、JavaScript、TypeScript、Java)と8つの異なるドメインのリポジトリから収集される。
評価の結果,現在のLLMはOmniGIRLでは限られた性能を示した。
特に、最も優れたモデルであるGPT-4oは、問題の8.6%しか解決していない。
さらに,現在のLLMは,画像の理解を必要とする問題を解くのに苦労していることがわかった。
最高のパフォーマンスはClaude-3.5-Sonnetによって達成され、画像情報の10.5%しか解決できない。
最後に、OmniGIRLにおける現在のLLMの失敗の原因を分析し、今後の改善に対する洞察を提供する。
関連論文リスト
- A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。
30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。
FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文 参考訳(メタデータ) (2024-11-27T03:25:44Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution [47.850418420195304]
大規模言語モデル(LLM)はコード生成において有望であるが、GitHubの問題を解決する上で困難に直面している。
ソフトウェア進化のためにカスタマイズされた4つのエージェントからなる、GitHub Issue Resolution, MAGISのための新しいMulti-Agentフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-26T17:57:57Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - AGIBench: A Multi-granularity, Multimodal, Human-referenced,
Auto-scoring Benchmark for Large Language Models [3.518832148294879]
ChatGPTのような大規模言語モデルの問題解決能力を評価する方法はホットスポットだが難しい問題だ。
本稿では,LLMのマルチグラニュラ性,マルチモーダル,ヒューマン参照,オートスコーリングのベンチマーク手法であるAGIBenchを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。