論文の概要: Visual-ERM: Reward Modeling for Visual Equivalence
- arxiv url: http://arxiv.org/abs/2603.13224v1
- Date: Fri, 13 Mar 2026 17:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.234496
- Title: Visual-ERM: Reward Modeling for Visual Equivalence
- Title(参考訳): Visual-ERM:ビジュアル等価性のためのリワードモデリング
- Authors: Ziyu Liu, Shengyuan Ding, Xinyu Fang, Xuanlang Dai, Penghui Yang, Jianze Liang, Jiaqi Wang, Kai Chen, Dahua Lin, Yuhang Zang,
- Abstract要約: Visual Equivalence Reward Model (Visual-ERM)は、細粒度、解釈可能、タスクに依存しないフィードバックを提供するマルチモーダル生成報酬モデルである。
Visual-ERM は Qwen3-VL-8B-Instruct を 8.4 で改善し、テーブルとSVGのパースで一貫したゲインを得る。
VisualCritic-RewardBench(VC-RewardBench)は、構造化された視覚データに対して微細な画像と画像の相違を判定するためのベンチマークである。
- 参考スコア(独自算出の注目度): 59.317480168347664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-to-code tasks require models to reconstruct structured visual inputs, such as charts, tables, and SVGs, into executable or structured representations with high visual fidelity. While recent Large Vision Language Models (LVLMs) achieve strong results via supervised fine-tuning, reinforcement learning remains challenging due to misaligned reward signals. Existing rewards either rely on textual rules or coarse visual embedding similarity, both of which fail to capture fine-grained visual discrepancies and are vulnerable to reward hacking. We propose Visual Equivalence Reward Model (Visual-ERM), a multimodal generative reward model that provides fine-grained, interpretable, and task-agnostic feedback to evaluate vision-to-code quality directly in the rendered visual space. Integrated into RL, Visual-ERM improves Qwen3-VL-8B-Instruct by +8.4 on chart-to-code and yields consistent gains on table and SVG parsing (+2.7, +4.1 on average), and further strengthens test-time scaling via reflection and revision. We also introduce VisualCritic-RewardBench (VC-RewardBench), a benchmark for judging fine-grained image-to-image discrepancies on structured visual data, where Visual-ERM at 8B decisively outperforms Qwen3-VL-235B-Instruct and approaches leading closed-source models. Our results suggest that fine-grained visual reward supervision is both necessary and sufficient for vision-to-code RL, regardless of task specificity.
- Abstract(参考訳): ビジョン・トゥ・コードタスクは、チャート、テーブル、SVGなどの構造化された視覚入力を、高い視覚的忠実度を持つ実行可能なあるいは構造化された表現に再構成するモデルを必要とする。
近年のLVLM(Large Vision Language Models)は、教師付き微調整によって強力な結果を得られるが、報酬信号の不一致により強化学習は困難である。
既存の報酬は、テキストルールや粗いビジュアル埋め込み類似性に依存するが、どちらもきめ細かい視覚的不一致を捉えず、ハッキングに弱い。
視覚空間における視覚とコード間の品質を直接評価するために,細粒度,解釈可能,タスクに依存しないフィードバックを提供するマルチモーダル生成報酬モデルであるVisual Equivalence Reward Model (Visual-ERM)を提案する。
RLに統合され、Visual-ERMはQwen3-VL-8B-インストラクションをチャート・トゥ・コードで+8.4改善し、テーブルとSVGのパース(平均で+2.7、+4.1)で一貫したゲインを得る。
VisualCritic-RewardBench (VC-RewardBench)は、構造化された視覚データに対して微細な画像と画像の差を判断するベンチマークで、Visual-ERMは8BでQwen3-VL-235B-インストラクションを決定的に上回り、主要なクローズドソースモデルにアプローチする。
この結果から,タスクの特異性に関わらず,細粒度の視覚報酬監督は視覚とコード間のRLに必要であり,かつ十分であることが示唆された。
関連論文リスト
- Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing [76.2602505940467]
既存のモデルは、しばしば視覚的に密集したチャートに苦しむため、データの欠落、修正ミス、幻覚などのエラーにつながる。
複雑なチャートを読む際の精度を確保するために指を視覚アンカーとして使うという人間の戦略に触発され、視覚自己認識(VSR)と呼ばれる新しいパラダイムを提案する。
VSRの中核となる考え方は、モデルがピクセルレベルのローカライゼーション出力を生成し、それらを視覚化し、それらの視覚化を自身にフィードバックし、直感的にその潜在的な視覚的認識エラーを検査し修正できるようにすることである。
論文 参考訳(メタデータ) (2026-02-18T13:40:53Z) - Reinforced Visual Perception with Tools [66.79840157663237]
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。
我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
論文 参考訳(メタデータ) (2025-09-01T17:57:49Z) - VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。
本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。