論文の概要: Enhancing Visual Programming for Visual Reasoning via Probabilistic Graphs
- arxiv url: http://arxiv.org/abs/2512.14257v1
- Date: Tue, 16 Dec 2025 10:07:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.679032
- Title: Enhancing Visual Programming for Visual Reasoning via Probabilistic Graphs
- Title(参考訳): 確率グラフによるビジュアル推論のためのビジュアルプログラミングの強化
- Authors: Wentao Wan, Kaiyu Wu, Qingyang Ma, Nan Kang, Yunjie Chen, Liang Lin, Keze Wang,
- Abstract要約: 本稿では,確率グラフを用いた視覚推論のための視覚プログラミング手法EVPGを提案する。
GQA, NLVRv2, Open Imagesの3つの古典的複合VRタスクにおけるVPの大幅な性能向上を示す。
- 参考スコア(独自算出の注目度): 47.54638493412879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Visual Programming (VP) based on large language models (LLMs) has rapidly developed and demonstrated significant potential in complex Visual Reasoning (VR) tasks. Previous works to enhance VP have primarily focused on improving the quality of LLM-generated visual programs. However, they have neglected to optimize the VP-invoked pre-trained models, which serve as modules for the visual sub-tasks decomposed from the targeted tasks by VP. The difficulty is that there are only final labels of targeted VR tasks rather than labels of sub-tasks. Besides, the non-differentiable nature of VP impedes the direct use of efficient gradient-based optimization methods to leverage final labels for end-to-end learning of the entire VP framework. To overcome these issues, we propose EVPG, a method to Enhance Visual Programming for visual reasoning via Probabilistic Graphs. Specifically, we creatively build a directed probabilistic graph according to the variable dependency relationships during the VP executing process, which reconstructs the non-differentiable VP executing process into a differentiable exact probability inference process on this directed probabilistic graph. As a result, this enables the VP framework to utilize the final labels for efficient, gradient-based optimization in end-to-end supervised learning on targeted VR tasks. Extensive and comprehensive experiments demonstrate the effectiveness and advantages of our EVPG, showing significant performance improvements for VP on three classical complex VR tasks: GQA, NLVRv2, and Open Images.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) に基づくビジュアルプログラミング (VP) が急速に発展し,複雑なビジュアル推論 (VR) タスクにおいて重要な可能性を示している。
これまでは、LLM生成した視覚プログラムの品質向上に主眼を置いてきた。
しかし彼らは、VPがターゲットとするタスクから切り離した視覚的なサブタスクのモジュールとして機能するVP呼び出し事前訓練モデルの最適化を怠っている。
難しいのは、サブタスクのラベルではなく、ターゲットとするVRタスクの最終的なラベルがあることだ。
さらに、VPの差別化不可能な性質は、VPフレームワーク全体のエンドツーエンド学習に最終ラベルを活用するために、効率的な勾配ベースの最適化手法を直接使用することを妨げる。
これらの問題を克服するために,確率グラフを用いた視覚的推論のための視覚プログラミングを支援するEVPGを提案する。
具体的には、VP実行過程における可変依存性関係に従って有向確率グラフを創造的に構築し、非微分可能なVP実行過程を、この有向確率グラフ上の微分可能な正確な確率推定プロセスに再構成する。
これにより、VPフレームワークは最終ラベルを利用して、目標とするVRタスクにおけるエンドツーエンドの教師あり学習において、効率よく勾配に基づく最適化を行うことができる。
GQA、NLVRv2、Open Imagesの3つの古典的な複雑なVRタスクにおいて、VPの大幅なパフォーマンス向上が示されている。
関連論文リスト
- Enhancing Visual Prompting through Expanded Transformation Space and Overfitting Mitigation [0.9137554315375919]
ビジュアルプロンプト(VP)は、トレーニング済みの視覚モデルを下流タスクに適応させるための、パラメータ効率の良い微調整手法として期待されている。
本稿では,ACAVP(Affine, Color, Additive Visual Prompting)を提案する。
ACAVPはVP法間で最先端の精度を達成し、平均精度で線形探索を超越し、分布シフトに優れたロバスト性を示す。
論文 参考訳(メタデータ) (2025-10-09T06:08:15Z) - AutoVP: An Automated Visual Prompting Framework and Benchmark [66.5618543577204]
ビジュアルプロンプト(VP)は、様々な下流画像分類タスクを解決するために、事前訓練された視覚モデルを適用するための、パラメータ効率の高い微調整手法である。
本稿では,VP設計選択を自動化するエンドツーエンド拡張可能なフレームワークであるAutoVPと,12のダウンストリーム画像分類タスクを提案する。
実験の結果,AutoVPは,現在よく知られているVP手法よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T14:55:31Z) - A Stepwise Distillation Learning Strategy for Non-differentiable Visual Programming Frameworks on Visual Reasoning Tasks [48.181520570707654]
各種VRタスクにおける非微分可能なVPorgのためのステップワイズ蒸留学習戦略を提案する。
我々のSDVPは、VProgの視覚サブタスクのための既存の、よく訓練されたタスク固有のモデルを、対応する視覚サブモジュールによって呼び出されるはるかに大きなVLMに段階的に蒸留する。
論文 参考訳(メタデータ) (2023-09-18T14:28:47Z) - Understanding and Improving Visual Prompting: A Label-Mapping
Perspective [63.89295305670113]
我々は視覚タスクの入力プロンプト技術である視覚プロンプト(VP)を再検討し前進する。
ILM-VPと呼ばれる新しいVPフレームワークを提案し、ソースラベルをターゲットラベルに自動的に再マップする。
提案手法は最先端のVP法よりも優れている。
論文 参考訳(メタデータ) (2022-11-21T16:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。