論文の概要: Visual Set Program Synthesizer
- arxiv url: http://arxiv.org/abs/2603.15997v1
- Date: Mon, 16 Mar 2026 23:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.034848
- Title: Visual Set Program Synthesizer
- Title(参考訳): ヴィジュアル・セット・プログラム・シンセサイザー
- Authors: Zehua Cheng, Wei Dai, Wenhu Zhang, Thomas Lukasiewicz, Jiahao Sun,
- Abstract要約: 本稿では,視覚的推論を視覚的プログラム合成として扱うことを提案する。
また、セットベースの視覚的推論を評価するために特別に設計された新しいベンチマークであるSet-VQAを紹介する。
- 参考スコア(独自算出の注目度): 43.33875468039207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A user pointing their phone at a supermarket shelf and asking "Which soda has the least sugar?" poses a difficult challenge for current visual Al assistants. Such queries require not only object recognition, but explicit set-based reasoning such as filtering, comparison, and aggregation. Standard endto-end MLLMs often fail at these tasks because they lack an explicit mechanism for compositional logic. We propose treating visual reasoning as Visual Program Synthesis, where the model first generates a symbolic program that is executed by a separate engine grounded in visual scenes. We also introduce Set-VQA, a new benchmark designed specifically for evaluating set-based visual reasoning. Experiments show that our approach significantly outperforms state-of-the-art baselines on complex reasoning tasks, producing more systematic and transparent behavior while substantially improving answer accuracy. These results demonstrate that program-driven reasoning provides a principled alternative to black-box visual-language inference.
- Abstract(参考訳): スーパーマーケットの棚に携帯電話を向け、「ソーダの糖度は低いのか?」と尋ねると、現在の視覚的Alアシスタントにとって難しい課題となる。
このようなクエリには、オブジェクト認識だけでなく、フィルタリング、比較、集約といった明示的なセットベースの推論が必要である。
標準のエンドツーエンドMLLMは、構成論理の明確なメカニズムが欠如しているため、これらのタスクで失敗することが多い。
本稿では,視覚的推論を視覚的プログラム合成として扱うことを提案する。
また、セットベースの視覚的推論を評価するために特別に設計された新しいベンチマークであるSet-VQAを紹介する。
実験の結果,本手法は複雑な推論タスクにおける最先端のベースラインを著しく上回り,より体系的で透明な振る舞いを呈し,解答精度を大幅に向上させることがわかった。
これらの結果は、プログラム駆動推論がブラックボックスの視覚言語推論に代わる原則的な代替となることを示している。
関連論文リスト
- Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning [50.62037276161025]
視覚言語モデル(VLM)は、視覚とテキストのモダリティを共同で活用することを目的としている。
主な障害は、視覚的な入力は通常、生成開始時に1回だけ提供されることである。
EmphSaliency-Aware Principle (SAP) の選択を提案する。
論文 参考訳(メタデータ) (2026-02-18T18:49:56Z) - RECODE: Reasoning Through Code Generation for Visual Question Answering [68.86938437188964]
我々は、検証可能な視覚的推論のための新しいモダリティとして、視覚を実行可能コードにリバースエンジニアリングするプロセスであるデレンダリングを活用することを提案する。
我々の研究は、実行可能コードにおける視覚的認識の基盤が、より正確で検証可能なマルチモーダル推論への新たな道を提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T17:05:37Z) - Multi-Step Visual Reasoning with Visual Tokens Scaling and Verification [22.871255950998016]
本稿では,MLLMが視覚コンテンツに対して検証者誘導推論を行うことを可能にする,推論時ビジュアルトークンスケーリングのための新しいフレームワークを提案する。
提案手法は,様々な視覚的推論ベンチマークにおいて,既存手法よりも優れていた。
これらの結果は,次世代MLLMにおける微粒でコンテキスト対応の視覚的推論を実現するための動的推論機構の実現を実証するものである。
論文 参考訳(メタデータ) (2025-06-08T17:38:49Z) - VisuRiddles: Fine-grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning [70.44416154144001]
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、多くの推論タスクにおいて、その性能を著しく向上させてきた。
AVR(Abstract Visual Reasoning)は、抽象グラフィックの知覚に制限があるため、依然として重要な課題である。
PRSのベンチマークであるVisuRiddlesを提案し、モデルの推論能力を評価するために精巧に構築されたタスクを特徴付ける。
第二に、パーセプチュアル・リドル・シンセサイザー (PRS) を導入する。
論文 参考訳(メタデータ) (2025-06-03T07:24:00Z) - NAVER: A Neuro-Symbolic Compositional Automaton for Visual Grounding with Explicit Logic Reasoning [22.60247555240363]
本稿では,人間の認知のような推論を必要とする手法の課題について考察する。
本研究では,明示的な確率論的論理推論を統合する構成的視覚的接地手法であるNAVERを提案する。
その結果、NAVERは最近のエンドツーエンドや構成ベースラインと比較して SoTA の性能が向上していることがわかった。
論文 参考訳(メタデータ) (2025-02-01T09:19:08Z) - SHOP-VRB: A Visual Reasoning Benchmark for Object Perception [26.422761228628698]
ロボット工学応用における視覚的推論のためのアプローチとベンチマークを提案する。
視覚データとテキストデータからオブジェクトプロパティを推測することに注力する。
シンボリックプログラム実行に基づく推論システムを提案する。
論文 参考訳(メタデータ) (2020-04-06T13:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。