論文の概要: Seeing is Fixing: Cross-Modal Reasoning with Multimodal LLMs for Visual Software Issue Fixing
- arxiv url: http://arxiv.org/abs/2506.16136v1
- Date: Thu, 19 Jun 2025 08:42:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.002155
- Title: Seeing is Fixing: Cross-Modal Reasoning with Multimodal LLMs for Visual Software Issue Fixing
- Title(参考訳): Looking is Fixing:Visual Software Issue FixingのためのマルチモーダルLLMを用いたクロスモーダル推論
- Authors: Kai Huang, Jian Zhang, Xiaofei Xie, Chunyang Chen,
- Abstract要約: 大規模言語モデル-(LLM)ベースの自動プログラム修正(APR)技術は、現実のGitHubの課題を解決する上で有望な結果を示している。
これらの自律システムは、視覚情報の解釈と活用の制限により、マルチモーダルな問題のシナリオを解決するのに苦労する。
GUIRepairは,視覚情報を理解し,取得することで,多モーダルな問題シナリオを解決するための多モーダルな推論手法である。
- 参考スコア(独自算出の注目度): 41.75392938686494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model-(LLM) based automated program repair (APR) techniques have shown promising results in resolving real-world GitHub issue tasks. Existing APR systems are primarily evaluated in unimodal settings (e.g., SWE-bench). However, these autonomous systems struggle to resolve multimodal problem scenarios (e.g., SWE-bench M) due to limitations in interpreting and leveraging visual information. In multimodal scenarios, LLMs need to rely on visual information in the graphical user interface (GUI) to understand bugs and generate fixes. To bridge this gap, we propose GUIRepair, a cross-modal reasoning approach for resolving multimodal issue scenarios by understanding and capturing visual information. Specifically, GUIRepair integrates two key components, Image2Code and Code2Image, to enhance fault comprehension and patch validation. Image2Code extracts relevant project documents based on the issue report, then applies this domain knowledge to generate the reproduced code responsible for the visual symptoms, effectively translating GUI images into executable context for better fault comprehension. Code2Image replays the visual issue scenario using the reproduced code and captures GUI renderings of the patched program to assess whether the fix visually resolves the issue, providing feedback for patch validation. We evaluate GUIRepair on SWE-bench M, and the approach demonstrates significant effectiveness. When utilizing GPT-4o as the base model, GUIRepair solves 157 instances, outperforming the best open-source baseline by 26 instances. Furthermore, when using o4-mini as the base model, GUIRepair can achieve even better results and solve 175 instances, outperforming the top commercial system by 22 instances. This emphasizes the success of our new perspective on incorporating cross-modal reasoning by understanding and capturing visual information to resolve multimodal issues.
- Abstract(参考訳): 大規模言語モデル-(LLM)ベースの自動プログラム修正(APR)技術は、現実のGitHubの課題を解決する上で有望な結果を示している。
既存のAPRシステムは、主に単調な設定(例えば、SWE-bench)で評価される。
しかしながら、これらの自律システムは、視覚情報の解釈と活用の制限により、マルチモーダルな問題シナリオ(例えば、SWE-bench M)を解決するのに苦労する。
マルチモーダルシナリオでは、LLMはバグを理解し、修正を生成するためにグラフィカルユーザインタフェース(GUI)の視覚情報に頼る必要がある。
このギャップを埋めるため,GUIRepairを提案する。
具体的には、GUIRepairはImage2CodeとCode2Imageという2つの重要なコンポーネントを統合し、フォールト理解とパッチ検証を強化する。
Image2Codeは、課題報告に基づいて関連するプロジェクト文書を抽出し、このドメイン知識を適用して、視覚症状の原因となる再生コードを生成し、GUIイメージを実行可能なコンテキストに効果的に変換することで、より良いフォールト理解を実現する。
Code2Imageは、再生されたコードを使用して視覚的なイシューシナリオをリプレイし、パッチされたプログラムのGUIレンダリングをキャプチャして、修正が問題を視覚的に解決するかどうかを評価し、パッチ検証のためのフィードバックを提供する。
SWE-bench M における GUIRepair の評価を行い,本手法の有効性を示した。
GPT-4oをベースモデルとして利用する場合、GUIRepairは157のインスタンスを解決し、最高のオープンソースベースラインを26のインスタンスで上回っている。
さらに、o4-miniをベースモデルとして使用する場合、GUIRepairはより優れた結果を実現し、175のインスタンスを解決し、22のインスタンスで最高の商用システムを上回っます。
これは、マルチモーダル問題を解決するために、視覚情報を理解し、キャプチャすることで、クロスモーダル推論を導入するという私たちの新しい視点の成功を強調します。
関連論文リスト
- Enhancing Repository-Level Software Repair via Repository-Aware Knowledge Graphs [8.467850621024672]
リポジトリレベルのソフトウェア修復は、問題記述とコードパッチの間のセマンティックギャップを埋める際の課題に直面します。
既存のアプローチは、主に大きな言語モデル(LLM)に依存しており、意味的曖昧さ、構造的コンテキストの理解の制限、推論能力の不足に悩まされている。
本稿では,リポジトリのアーティファクト(課題とプル要求)とエンティティを正確にリンクする新しいリポジトリ対応知識グラフ(KG)を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:21:47Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains? [64.34184587727334]
視覚的ユーザ向けJavaScriptソフトウェアにおけるバグ修正機能に基づいて,システム評価を行うSWE-bench Multimodalを提案する。
SWE-bench Mは、Webインターフェース設計、ダイアグラム、データ視覚化、シンタックスハイライト、インタラクティブマッピングに使用される17のJavaScriptライブラリから収集された617のタスクインスタンスを特徴とする。
分析の結果,SWE-benchシステムはSWE-bench Mと競合し,視覚的問題解決や言語間の一般化に限界があることが判明した。
論文 参考訳(メタデータ) (2024-10-04T18:48:58Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - Seeing is Believing: Vision-driven Non-crash Functional Bug Detection for Mobile Apps [26.96558418166514]
本稿では,非クラッシュな機能的バグを検出するための,視覚駆動型多エージェント協調GUIテスト手法を提案する。
590の非クラッシュバグに対してTridentを評価し,12のベースラインと比較したところ,平均リコールと精度が14%-112%,108%-147%向上した。
論文 参考訳(メタデータ) (2024-07-03T11:58:09Z) - VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning [6.035805925050573]
VGAはグラフィカルユーザインタフェース(GUI)の総合的な理解のために設計された微調整モデルである。
本モデルは,GUIの視覚的データの解釈を強化し,幻覚を減らすことを目的としている。
データセットと微調整スクリプトが近くリリースされる予定です。
論文 参考訳(メタデータ) (2024-06-20T07:24:43Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models [55.508049882447395]
大規模マルチモーダルモデル(LMM)は視覚言語タスクにおいて有望であるが、高解像度入力と詳細なシーン理解に苦慮している。
LMM機能を強化するためにMonkeyを導入します。
モンキーは入力画像を均一なパッチに分割して処理し、それぞれのサイズ(例:448x448)をよく訓練されたビジョンエンコーダのトレーニングに使用する。
解像度は1344x896ピクセルまでで、複雑な視覚情報を詳細にキャプチャできる。
論文 参考訳(メタデータ) (2023-11-11T16:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。