論文の概要: GALA: Multimodal Graph Alignment for Bug Localization in Automated Program Repair
- arxiv url: http://arxiv.org/abs/2604.08089v1
- Date: Thu, 09 Apr 2026 11:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.875452
- Title: GALA: Multimodal Graph Alignment for Bug Localization in Automated Program Repair
- Title(参考訳): GALA:自動プログラム修復におけるバグローカライゼーションのためのマルチモーダルグラフアライメント
- Authors: Zhuoyao Liu, Zhengran Zeng, Shu-Dong Huang, Yang Liu, Shikun Zhang, Wei Ye,
- Abstract要約: 本稿では,マルチモーダル自動プログラム修復(APR)を暗黙的な意味的推測から明示的な構造的推論に移行するフレームワークであるGALAを提案する。
GALAは、まずイメージUIグラフを構築して、視覚要素とその構造的関係をキャプチャし、続いて、このUIグラフをリポジトリレベルの構造と相互参照することで、ファイルレベルのアライメントを実行する。
モダリティ間のセマンティクスとリレーショナルの整合性を強制することにより、GALAは高度に正確なビジュアル・ツー・コードマッピングを確立する。
- 参考スコア(独自算出の注目度): 40.228155198574356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based Automated Program Repair (APR) has shown strong potential on textual benchmarks, yet struggles in multimodal scenarios where bugs are reported with GUI screenshots. Existing methods typically convert images into plain text, which discards critical spatial relationships and causes a severe disconnect between visual observations and code components, leading localization to degrade into imprecise keyword matching. To bridge this gap, we propose GALA (Graph Alignment for Localization in APR), a framework that shifts multimodal APR from implicit semantic guessing to explicit structural reasoning. GALA operates in four stages: it first constructs an Image UI Graph to capture visual elements and their structural relationships; then performs file-level alignment by cross-referencing this UI graph with repository-level structures (e.g., file references) to locate candidate files; next conducts function-level alignment by reasoning over fine-grained code dependencies (e.g., call graphs) to precisely ground visual elements to corresponding code components; and finally performs patch generation within the grounded code context based on the aligned files and functions. By systematically enforcing both semantic and relational consistency across modalities, GALA establishes a highly accurate visual-to-code mapping. Evaluations on the SWE-bench Multimodal benchmark demonstrate that GALA achieves state-of-the-art performance, highlighting the effectiveness of hierarchical structural alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースの自動プログラム修正(APR)は、テキストベンチマークにおいて大きな可能性を示しているが、GUIスクリーンショットでバグが報告されるマルチモーダルシナリオでは苦労している。
既存の手法では、イメージをプレーンテキストに変換し、重要な空間的関係を破棄し、視覚的観察とコードコンポーネントを著しく切り離し、ローカライゼーションを不正確なキーワードマッチングに分解する。
このギャップを埋めるため,GALA(Graph Alignment for Localization in APR)を提案する。
GALAはまず、ビジュアル要素とその構造的関係をキャプチャするためにイメージUIグラフを構築し、次に、このUIグラフをリポジトリレベルの構造(例:ファイル参照)で相互参照して、候補ファイルを見つけることでファイルレベルのアライメントを実行する。
モジュール間のセマンティック一貫性とリレーショナル一貫性を体系的に実施することにより、GALAは高度に正確なビジュアル・ツー・コードマッピングを確立する。
SWE-bench Multimodal ベンチマークの評価は,GALA が最先端の性能を達成することを示し,階層構造アライメントの有効性を強調した。
関連論文リスト
- MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning [37.02901476078596]
MM-CondChainは、視覚的に深い合成推論のためのベンチマークである。
MM-CondChainは多層推論チェーンとして構成され、各層は非自明な構成条件を含む。
プランナーは構成条件の層間生成をオーケストレーションし、検証可能なプログラム中間表現(VPIR)は各層の状態が機械的に検証可能であることを保証する。
論文 参考訳(メタデータ) (2026-03-12T17:59:56Z) - Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing [76.2602505940467]
既存のモデルは、しばしば視覚的に密集したチャートに苦しむため、データの欠落、修正ミス、幻覚などのエラーにつながる。
複雑なチャートを読む際の精度を確保するために指を視覚アンカーとして使うという人間の戦略に触発され、視覚自己認識(VSR)と呼ばれる新しいパラダイムを提案する。
VSRの中核となる考え方は、モデルがピクセルレベルのローカライゼーション出力を生成し、それらを視覚化し、それらの視覚化を自身にフィードバックし、直感的にその潜在的な視覚的認識エラーを検査し修正できるようにすることである。
論文 参考訳(メタデータ) (2026-02-18T13:40:53Z) - SVRepair: Structured Visual Reasoning for Automated Program Repair [17.545585659174773]
大規模言語モデル(LLM)は、最近、APR(Automated Program repair)の強力な可能性を示している。
構造化された視覚表現を持つマルチモーダルAPRフレームワークである textbfSVRepair を提案する。
SVRepairはまず視覚言語モデルであるtextbfStructured Visual Representation (SVR) を微調整し、不均一な視覚的アーティファクトをアンフェマティックなシーングラフに変換する。
論文 参考訳(メタデータ) (2026-02-05T06:26:46Z) - Text2Graph VPR: A Text-to-Graph Expert System for Explainable Place Recognition in Changing Environments [0.0]
Text2Graph VPRは、画像シーケンスをテキストシーン記述に変換する。
シーングラフはオブジェクト、属性、ペア関係をキャプチャする。
厳格な外見変化下での頑健な検索を実証した。
論文 参考訳(メタデータ) (2025-12-21T06:16:20Z) - CORA: Consistency-Guided Semi-Supervised Framework for Reasoning Segmentation [54.53371540755023]
推論セグメンテーションは、複雑でしばしば暗黙的な指示によって参照されるターゲットに対して、ピクセル精度の高いマスクを求める。
我々は、限定ラベル付きデータとラベルなし画像の大きなコーパスから共同で学習する半教師付き推論セグメンテーションフレームワークCORAを提案する。
CORAは最先端の結果を達成し、都市景観理解のためのベンチマークデータセットであるCityscapesにラベル付きイメージを100個まで必要としています。
論文 参考訳(メタデータ) (2025-11-21T20:14:55Z) - GRACE: Graph-Guided Repository-Aware Code Completion through Hierarchical Code Fusion [33.66085762717581]
LLMはローカライズされたコード補完に優れていますが、コンテキストウィンドウが限られているため、リポジトリレベルのタスクに苦労しています。
GRACEは、静的および動的コードセマンティクスの両方をキャプチャするために、マルチレベルでマルチセマンティックなコードグラフを構築する。
実験によると、GRACEはすべてのメトリクスで最先端のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-09-07T09:01:48Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Exploring Part-Informed Visual-Language Learning for Person Re-Identification [52.92511980835272]
本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。
$pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。
我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z) - SA-VQA: Structured Alignment of Visual and Semantic Representations for
Visual Question Answering [29.96818189046649]
本稿では,視覚とテキストのグラフ表現を扱う構造化アライメントを提案する。
実験結果に示すように,このような構造的アライメントは推論性能を向上させる。
提案したモデルは、事前トレーニングなしで、GQAデータセット上で最先端の手法を上回り、VQA-v2データセット上で非事前トレーニングされた最先端の手法を上回ります。
論文 参考訳(メタデータ) (2022-01-25T22:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。