論文の概要: Synthesizing Visual Concepts as Vision-Language Programs
- arxiv url: http://arxiv.org/abs/2511.18964v1
- Date: Mon, 24 Nov 2025 10:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.15582
- Title: Synthesizing Visual Concepts as Vision-Language Programs
- Title(参考訳): 視覚言語プログラムとしての視覚概念の合成
- Authors: Antonia Wüst, Wolfgang Stammer, Hikaru Shindo, Lukas Helff, Devendra Singh Dhami, Kristian Kersting,
- Abstract要約: VLM(Vision-Language Model)は、マルチモーダルタスクにおいて高い性能を達成するが、しばしば系統的な視覚的推論タスクでは失敗する。
本稿では,VLMの知覚的柔軟性とプログラム合成の系統的推論を組み合わせた視覚言語プログラムを提案する。
- 参考スコア(独自算出の注目度): 39.89156658712712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language models (VLMs) achieve strong performance on multimodal tasks but often fail at systematic visual reasoning tasks, leading to inconsistent or illogical outputs. Neuro-symbolic methods promise to address this by inducing interpretable logical rules, though they exploit rigid, domain-specific perception modules. We propose Vision-Language Programs (VLP), which combine the perceptual flexibility of VLMs with systematic reasoning of program synthesis. Rather than embedding reasoning inside the VLM, VLP leverages the model to produce structured visual descriptions that are compiled into neuro-symbolic programs. The resulting programs execute directly on images, remain consistent with task constraints, and provide human-interpretable explanations that enable easy shortcut mitigation. Experiments on synthetic and real-world datasets demonstrate that VLPs outperform direct and structured prompting, particularly on tasks requiring complex logical reasoning.
- Abstract(参考訳): VLM(Vision-Language Model)は、マルチモーダルなタスクにおいて強力なパフォーマンスを達成するが、しばしば系統的な視覚的推論タスクでは失敗し、矛盾や非論理的なアウトプットをもたらす。
ニューロシンボリックな方法は解釈可能な論理規則を誘導することでこの問題に対処することを約束するが、それらは厳密なドメイン固有の知覚モジュールを利用する。
本稿では,VLMの知覚的柔軟性とプログラム合成の系統的推論を組み合わせた視覚言語プログラム(VLP)を提案する。
VLM内に推論を埋め込むのではなく、VLPはモデルを利用して、ニューロシンボリックプログラムにコンパイルされる構造化された視覚的記述を生成する。
結果として得られたプログラムは、画像上で直接実行され、タスク制約と整合性を維持し、簡単なショートカット緩和を可能にする人間解釈可能な説明を提供する。
合成および実世界のデータセットの実験では、VLPは直接的および構造化的なプロンプト、特に複雑な論理的推論を必要とするタスクよりも優れていた。
関連論文リスト
- Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [17.313485392764353]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。
VLMベースの知覚とLLMベースの推論を統合する。
その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文 参考訳(メタデータ) (2025-03-19T11:05:42Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクのコンテキストにおいてLLMの実用性を拡張し,最小限のインプットとアウトプットのデモをコンテキストフレームワーク内で一般化する,新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。