論文の概要: SketchVL: Policy Optimization via Fine-Grained Credit Assignment for Chart Understanding and More
- arxiv url: http://arxiv.org/abs/2601.05688v1
- Date: Fri, 09 Jan 2026 10:13:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.943034
- Title: SketchVL: Policy Optimization via Fine-Grained Credit Assignment for Chart Understanding and More
- Title(参考訳): SketchVL: チャート理解などのための細分化クレジットアサインメントによる政策最適化
- Authors: Muye Huang, Lingling Zhang, Yifei Li, Yaqiang Wu, Jun Liu,
- Abstract要約: 我々はFinePOを最適化した新しいMLLMであるSketchVLを紹介した。
トレーニング中、FinePOアルゴリズムは細粒度プロセスリワードモデル(FinePRM)を利用して、各描画動作を軌道内でスコアし、各ステップのクレジットを正確に割り当てる。
実験の結果、SketchVLはFinPRMとステップレベルの動作を一致させることを学び、ベースモデルよりも平均7.23%の性能向上を達成した。
- 参考スコア(独自算出の注目度): 15.102512433806751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Charts are high-density visual carriers of complex data and medium for information extraction and analysis. Due to the need for precise and complex visual reasoning, automated chart understanding poses a significant challenge to existing Multimodal Large Language Models (MLLMs). Many MLLMs trained with reinforcement learning (RL) face the challenge of credit assignment. Their advantage estimation, typically performed at the trajectory level, cannot distinguish between correct and incorrect reasoning steps within a single generated response. To address this limitation, we introduce SketchVL, a novel MLLM that optimized with FinePO, a new RL algorithm designed for fine-grained credit assignment within each trajectory. SketchVL's methodology involves drawing its intermediate reasoning steps as markers on the image and feeding the annotated image back to itself, creating a robust, multi-step reasoning process. During training, the FinePO algorithm leverages a Fine-grained Process Reward Model (FinePRM) to score each drawing action within a trajectory, thereby precisely assigning credit for each step. This mechanism allows FinePO to more strongly reward correct tokens when a trajectory is globally successful, and more heavily penalize incorrect tokens when the trajectory is globally suboptimal, thus achieving fine-grained reinforcement signals. Experiments show that SketchVL learns to align its step-level behavior with the FinePRM, achieving an average performance gain of 7.23\% over its base model across chart datasets, natural image datasets, and mathematics, providing a promising new direction for training powerful reasoning models.
- Abstract(参考訳): グラフは複雑なデータの高密度なビジュアルキャリアであり、情報抽出と分析のための媒体である。
正確な視覚的推論を必要とするため、チャートの自動理解は既存のマルチモーダル大言語モデル(MLLM)にとって大きな課題となる。
強化学習(RL)で訓練された多くのMLLMは、クレジット割り当ての課題に直面している。
それらの利点は、典型的には軌道レベルで行われ、単一の生成された応答の中で正しい推論ステップと間違った推論ステップを区別できない。
この制限に対処するため、我々はFinePOを最適化した新しいMLLMであるSketchVLを紹介した。
SketchVLの方法論は、中間推論ステップをイメージ上のマーカーとして描画し、注釈付きイメージを自身にフィードバックすることで、堅牢でマルチステップの推論プロセスを生成する。
トレーニング中、FinePOアルゴリズムは細粒度プロセスリワードモデル(FinePRM)を利用して、各描画動作を軌道内でスコアし、各ステップのクレジットを正確に割り当てる。
この機構により、ファインポットは軌道が大域的に成功したときに正しいトークンをより強く報いることができ、また、軌道が大域的に最適であるときに不正確なトークンをより過度に罰することができる。
実験によると、SketchVLはそのステップレベルの振る舞いをFinePRMと整合させ、グラフデータセット、自然画像データセット、数学のベースモデルで平均7.23\%のパフォーマンス向上を実現し、強力な推論モデルをトレーニングするための有望な新しい方向を提供する。
関連論文リスト
- Policies over Poses: Reinforcement Learning based Distributed Pose-Graph Optimization for Multi-Robot SLAM [1.3750624267664158]
多ボットローカライゼーションにおける逐次分散ポーズグラフ最適化(PGO)について検討する。
我々は,PGOをマルコフニューラルネットワーク(GNN)上で定義された部分観測可能なゲームとみなし,各アクションが単一エッジのポーズ推定を洗練させる。
学習者の平均軌道は37.5%減少し,効率は少なくとも6倍向上した。
論文 参考訳(メタデータ) (2025-10-26T16:21:24Z) - Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation [12.822184232115333]
本稿では,マルチモーダル構造化強化学習(MSRL)を提案する。
実世界のarXivテーブルから300万のチャートコードペアを含む,これまでで最大のトレーニングコーパスを構築した。
MSRLはSFT高原を著しく破壊し、ChartMimicとReachQAのベンチマークでそれぞれ6.2%と9.9%の高水準のメトリクスを改善した。
論文 参考訳(メタデータ) (2025-08-19T07:40:18Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。