Fugu-MT 論文翻訳(概要): SVRepair: Structured Visual Reasoning for Automated Program Repair

論文の概要: SVRepair: Structured Visual Reasoning for Automated Program Repair

arxiv url: http://arxiv.org/abs/2602.06090v1
Date: Thu, 05 Feb 2026 06:26:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.03856
Title: SVRepair: Structured Visual Reasoning for Automated Program Repair
Title（参考訳）: SVRepair: 自動プログラム修復のための構造化ビジュアル推論
Authors: Xiaoxuan Tang, Jincheng Wang, Liwei Luo, Jingxuan Xu, Sheng Zhou, Dajun Chen, Wei Jiang, Yong Li,
Abstract要約: 大規模言語モデル(LLM)は、最近、APR(Automated Program repair)の強力な可能性を示している。構造化された視覚表現を持つマルチモーダルAPRフレームワークである textbfSVRepair を提案する。 SVRepairはまず視覚言語モデルであるtextbfStructured Visual Representation (SVR) を微調整し、不均一な視覚的アーティファクトをアンフェマティックなシーングラフに変換する。
参考スコア（独自算出の注目度）: 17.545585659174773
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have recently shown strong potential for Automated Program Repair (APR), yet most existing approaches remain unimodal and fail to leverage the rich diagnostic signals contained in visual artifacts such as screenshots and control-flow graphs. In practice, many bug reports convey critical information visually (e.g., layout breakage or missing widgets), but directly using such dense visual inputs often causes context loss and noise, making it difficult for MLLMs to ground visual observations into precise fault localization and executable patches. To bridge this semantic gap, we propose \textbf{SVRepair}, a multimodal APR framework with structured visual representation. SVRepair first fine-tunes a vision-language model, \textbf{Structured Visual Representation (SVR)}, to uniformly transform heterogeneous visual artifacts into a \emph{semantic scene graph} that captures GUI elements and their structural relations (e.g., hierarchy), providing normalized, code-relevant context for downstream repair. Building on the graph, SVRepair drives a coding agent to localize faults and synthesize patches, and further introduces an iterative visual-artifact segmentation strategy that progressively narrows the input to bug-centered regions to suppress irrelevant context and reduce hallucinations. Extensive experiments across multiple benchmarks demonstrate state-of-the-art performance: SVRepair achieves \textbf{36.47\%} accuracy on SWE-Bench M, \textbf{38.02\%} on MMCode, and \textbf{95.12\%} on CodeVision, validating the effectiveness of SVRepair for multimodal program repair.
Abstract（参考訳）: 大規模言語モデル(LLM)は、最近、APR(Automated Program repair)の強い可能性を示しているが、既存のほとんどのアプローチは、単調なままであり、スクリーンショットや制御フローグラフのようなビジュアルアーティファクトに含まれる豊富な診断信号の活用に失敗している。実際には、多くのバグレポートは重要な情報を視覚的に伝達する(例えば、レイアウトの破損やウィジェットの欠落など)が、そのような密集した視覚的入力を直接使用すると、コンテキスト損失やノイズが発生することが多く、MLLMが視覚的な観察を正確な故障の局所化と実行可能なパッチに結びつけることは困難である。このセマンティックギャップを埋めるため、構造化された視覚表現を持つマルチモーダルAPRフレームワークである「textbf{SVRepair}」を提案する。 SVRepair はまず視覚言語モデルである \textbf{Structured Visual Representation (SVR) を微調整し、不均一な視覚アーチファクトを \emph{semantic scene graph} に変換する。グラフ上に構築されたSVRepairは、欠陥をローカライズし、パッチを合成するためのコーディングエージェントを駆動し、さらに、バグ中心領域への入力を徐々に狭め、無関係なコンテキストを抑え、幻覚を減少させる反復的な視覚的アーティファクトセグメンテーション戦略を導入する。 SVRepair は SWE-Bench M 上で \textbf{36.47\%} の精度、MMCode 上で \textbf{38.02\%} 、CodeVision 上で \textbf{95.12\%} を達成し、マルチモーダルプログラム修復における SVRepair の有効性を検証する。

関連論文リスト

Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing [76.2602505940467]
既存のモデルは、しばしば視覚的に密集したチャートに苦しむため、データの欠落、修正ミス、幻覚などのエラーにつながる。複雑なチャートを読む際の精度を確保するために指を視覚アンカーとして使うという人間の戦略に触発され、視覚自己認識(VSR)と呼ばれる新しいパラダイムを提案する。 VSRの中核となる考え方は、モデルがピクセルレベルのローカライゼーション出力を生成し、それらを視覚化し、それらの視覚化を自身にフィードバックし、直感的にその潜在的な視覚的認識エラーを検査し修正できるようにすることである。
論文参考訳（メタデータ） (2026-02-18T13:40:53Z)
ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。 ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-02-15T11:14:47Z)
Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy [75.66913260900726]
検証可能なリワードによる強化学習は、大規模言語モデルにおいてかなり高度な推論能力を持っている。既存のパラダイムは、テキスト中心の成果報酬によって推進され、モデルが視覚的知覚をバイパスすることを奨励します。我々はtextbfDifferential Visual Reasoning Policy によって駆動されるフレームワーク Deltas を用いた textbfThinking を提案する。
論文参考訳（メタデータ） (2026-01-11T08:25:34Z)
Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文参考訳（メタデータ） (2025-10-30T13:09:00Z)
Visual CoT Makes VLMs Smarter but More Fragile [79.32638667101817]
チェーン・オブ・ソート(CoT)技術は視覚言語モデル(VLM)における推論を著しく向上させた Visual CoTは、興味のある領域のトリミングや注釈付けなどの明示的なビジュアル編集を推論プロセスに統合する。視覚摂動下での視覚的CoTロバスト性の最初の体系的評価について述べる。
論文参考訳（メタデータ） (2025-09-28T10:19:59Z)
Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs [9.406760867809124]
本稿では,視覚入力構造を用いた拡張推論(VISER)を提案する。 VISERは、低レベルの空間構造を持つ視覚入力を増強する、シンプルで効果的な方法である。私たちは、コアの視覚的推論タスクに対して、実質的なパフォーマンス改善を実証的に示します。
論文参考訳（メタデータ） (2025-06-27T11:44:40Z)
Seeing is Fixing: Cross-Modal Reasoning with Multimodal LLMs for Visual Software Issue Fixing [41.75392938686494]
大規模言語モデル-(LLM)ベースの自動プログラム修正(APR)技術は、現実のGitHubの課題を解決する上で有望な結果を示している。これらの自律システムは、視覚情報の解釈と活用の制限により、マルチモーダルな問題のシナリオを解決するのに苦労する。 GUIRepairは,視覚情報を理解し,取得することで,多モーダルな問題シナリオを解決するための多モーダルな推論手法である。
論文参考訳（メタデータ） (2025-06-19T08:42:11Z)
Exploring Part-Informed Visual-Language Learning for Person Re-Identification [52.92511980835272]
本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。 $pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-08-04T23:13:49Z)
Good Visual Guidance Makes A Better Extractor: Hierarchical Visual Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。 3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文参考訳（メタデータ） (2022-05-07T02:10:55Z)
Contrastive Visual-Linguistic Pretraining [48.88553854384866]
コントラスト的視覚言語事前学習は、コントラスト的学習に基づいて構築された視覚的自己監督的損失を構成する。 VQA, GQA, NLVR2などの下流タスクで評価した。
論文参考訳（メタデータ） (2020-07-26T14:26:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。