Fugu-MT 論文翻訳(概要): Can VLMs Reason Robustly? A Neuro-Symbolic Investigation

論文の概要: Can VLMs Reason Robustly? A Neuro-Symbolic Investigation

arxiv url: http://arxiv.org/abs/2603.23867v1
Date: Wed, 25 Mar 2026 02:48:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.099478
Title: Can VLMs Reason Robustly? A Neuro-Symbolic Investigation
Title（参考訳）: VLMはロバストに振る舞うことができるか? 神経・筋肉系による研究
Authors: Weixin Chen, Antonio Vergari, Han Zhao,
Abstract要約: VLM(Vision-Language Models)は、様々な推論タスクに適用されている。分布シフトの下で頑健に動作できるかは、まだ不明である。本稿では,VLMに基づく概念認識と回路に基づくシンボリック推論を組み合わせたニューロシンボリック手法を提案する。
参考スコア（独自算出の注目度）: 24.000218548502875
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) have been applied to a wide range of reasoning tasks, yet it remains unclear whether they can reason robustly under distribution shifts. In this paper, we study covariate shifts in which the perceptual input distribution changes while the underlying prediction rules do not. To investigate this question, we consider visual deductive reasoning tasks, where a model is required to answer a query given an image and logical rules defined over the object concepts in the image. Empirically, we find that VLMs fine-tuned through gradient-based end-to-end training can achieve high in-distribution accuracy but fail to generalize under such shifts, suggesting that fine-tuning does not reliably induce the underlying reasoning function. This motivates a neuro-symbolic perspective that decouples perception from reasoning. However, we further observe that recent neuro-symbolic approaches that rely on black-box components for reasoning can still exhibit inconsistent robustness across tasks. To address this issue, we propose VLC, a neuro-symbolic method that combines VLM-based concept recognition with circuit-based symbolic reasoning. In particular, task rules are compiled into a symbolic program, specifically a circuit, which executes the rules exactly over the object concepts recognized by the VLM. Experiments on three visual deductive reasoning tasks with distinct rule sets show that VLC consistently achieves strong performance under covariate shifts, highlighting its ability to support robust reasoning.
Abstract（参考訳）: VLM(Vision-Language Models)は、様々な推論タスクに適用されているが、分散シフトの下で堅牢に推論できるかどうかは不明だ。本稿では,認識入力分布が変化する共変量シフトを,基礎となる予測規則がそうでない間に検討する。この課題を考察するために,画像のオブジェクト概念に定義された論理的規則と条件を与えられた質問に対して,モデルが応答するために必要な視覚的帰納的推論タスクについて検討する。実験により、勾配に基づくエンドツーエンドの訓練により、VLMは高い分布精度を達成できるが、そのようなシフトの下では一般化できないことが判明し、微調整が基礎となる推論関数を確実に引き起こさないことが示唆された。これは、知覚を推論から切り離す神経象徴的な視点を動機付けている。しかし,近年,ブラックボックスの要素を推論に頼っているニューロシンボリックアプローチは,タスク間の一貫性に欠けるロバスト性を示し続けている。本稿では,VLMに基づく概念認識と回路に基づくシンボリック推論を組み合わせたニューロシンボリック手法であるVLCを提案する。特に、タスク・ルールはシンボリック・プログラム、特に回路にコンパイルされ、VLMによって認識されるオブジェクト概念に対してルールを正確に実行する。異なるルールセットを持つ3つの視覚的帰納的推論タスクの実験では、VLCは共変量シフトの下で一貫して強い性能を達成し、堅牢な推論をサポートする能力を強調している。

関連論文リスト

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models [60.088066516175026]
視覚言語モデル(VLM)の空間論理的推論能力を評価するためのベンチマークを導入する。 41の主流VLMに対して広範な実験を行い、最も先進的なモデルでさえも空間的論理的推論に苦戦していることを示す。本稿では,視覚基盤モデルを利用して複雑なシーンをタスク関連シーングラフに段階的に分解する再帰的シーングラフ支援手法を提案する。
論文参考訳（メタデータ） (2026-02-24T13:38:37Z)
Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning [50.352417879912515]
大規模言語モデル(LLM)は推論能力の進歩とともに複雑なタスクに優れる。一般化可能な推論パターンを学習するために,LLMを明示的に訓練するためのグループ因果政策最適化を提案する。次に、この報酬からトークンレベルのアドバンテージを構築し、ポリシーを最適化し、LCMにプロセス無効で事実上堅牢な推論パターンを推奨します。
論文参考訳（メタデータ） (2026-02-06T08:03:11Z)
Mapping Faithful Reasoning in Language Models [1.978797083466893]
概念ウォーク(Concept Walk)は、モデルの内部スタンスがどのように進化するかを推論中に概念の方向性に関して追跡するフレームワークである。表面テキストとは異なり、Concept Walkはアクティベーションスペースで動作し、コントラストデータから学習した概念方向への各推論ステップを投影する。難易度」の場合、摂動CoTはすぐに無視され、装飾的推論を示すのに対し、「硬度」の場合、摂動は内的アクティベーションの持続的な変化を誘導し、忠実な推論と整合する。
論文参考訳（メタデータ） (2025-10-25T16:48:19Z)
A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文参考訳（メタデータ） (2025-07-08T17:29:07Z)
What's Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning [26.671128120554457]
因果推論は、複雑な高レベルの推論タスクを解決するのに基本である。既存のベンチマークには、しばしば推論の質問が混在している。 VQA-CausalとVCR-Causalを導入し,因果推論能力の分離と厳密な評価を行った。
論文参考訳（メタデータ） (2025-06-01T07:17:46Z)
Symbolic Rule Extraction from Attention-Guided Sparse Representations in Vision Transformers [1.3812010983144802]
最近のニューロシンボリックアプローチは、解釈可能性を高めるためにCNNベースのモデルからシンボリック・ルールセットを抽出することに成功している。本稿では、スパースオートエンコーダ(SAE)にインスパイアされたスパース概念層を導入し、視覚変換器(ViT)からシンボルルールを抽出するフレームワークを提案する。本手法は,記号的推論が可能でありながら,標準のViTよりも5.14%の精度で分類できる。
論文参考訳（メタデータ） (2025-05-10T19:45:15Z)
Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文参考訳（メタデータ） (2023-05-24T08:33:15Z)
Expressive Explanations of DNNs by Combining Concept Analysis with ILP [0.3867363075280543]
我々は,dnn(feed-forward convolutional deep neural network)の理論的根拠をグローバル,表現的,言語的に説明するために,ネットワークが学習した本質的特徴を用いた。我々の説明は元々のブラックボックスモデルに忠実であることを示している。
論文参考訳（メタデータ） (2021-05-16T07:00:27Z)
Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文参考訳（メタデータ） (2020-06-20T08:48:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。