論文の概要: Logic Unseen: Revealing the Logical Blindspots of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.11317v1
- Date: Fri, 15 Aug 2025 08:40:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.804024
- Title: Logic Unseen: Revealing the Logical Blindspots of Vision-Language Models
- Title(参考訳): Logic Unseen:ビジョンランゲージモデルの論理的盲点を明らかにする
- Authors: Yuchen Zhou, Jiayu Tang, Shuo Yang, Xiaoyan Xiao, Yuqin Dai, Wenhao Yang, Chao Gou, Xiaobo Xia, Tat-Seng Chua,
- Abstract要約: VLM(Vision-Language Models)は、マルチモーダルインテリジェンスの基礎として登場した。
しかし、その論理的理解能力は依然として明らかに過小評価されている。
LogicBenchは9つの論理カテゴリと4つの多様なシナリオにまたがる5万以上の視覚言語ペアを備えたベンチマークである。
VLMの論理感度を高めるためのトレーニングフレームワークであるLogicCLIPを提案する。
- 参考スコア(独自算出の注目度): 58.456656119178064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs), exemplified by CLIP, have emerged as foundational for multimodal intelligence. However, their capacity for logical understanding remains significantly underexplored, resulting in critical ''logical blindspots'' that limit their reliability in practical applications. To systematically diagnose this, we introduce LogicBench, a comprehensive benchmark with over 50,000 vision-language pairs across 9 logical categories and 4 diverse scenarios: images, videos, anomaly detection, and medical diagnostics. Our evaluation reveals that existing VLMs, even the state-of-the-art ones, fall at over 40 accuracy points below human performance, particularly in challenging tasks like Causality and Conditionality, highlighting their reliance on surface semantics over critical logical structures. To bridge this gap, we propose LogicCLIP, a novel training framework designed to boost VLMs' logical sensitivity through advancements in both data generation and optimization objectives. LogicCLIP utilizes logic-aware data generation and a contrastive learning strategy that combines coarse-grained alignment, a fine-grained multiple-choice objective, and a novel logical structure-aware objective. Extensive experiments demonstrate LogicCLIP's substantial improvements in logical comprehension across all LogicBench domains, significantly outperforming baselines. Moreover, LogicCLIP retains, and often surpasses, competitive performance on general vision-language benchmarks, demonstrating that the enhanced logical understanding does not come at the expense of general alignment. We believe that LogicBench and LogicCLIP will be important resources for advancing VLM logical capabilities.
- Abstract(参考訳): 視覚言語モデル(VLM)は、CLIPによって実証され、マルチモーダルインテリジェンスの基礎として登場した。
しかし、それらの論理的理解能力は依然として明らかに過小評価されており、結果として「論理的盲点」が批判的になり、実践的な応用における信頼性が制限される。
これを体系的に診断するために,9つの論理カテゴリと4つの異なるシナリオ – 画像,ビデオ,異常検出,医療診断 – の5万以上の視覚言語ペアによる総合的なベンチマークであるLogicBenchを紹介した。
我々の評価によると、既存のVLMは、最先端のVLMでさえ、人間のパフォーマンスよりも40以上の精度で低下しており、特に因果性や条件性といった困難なタスクにおいて、重要な論理構造に対する表面意味論への依存を強調している。
このギャップを埋めるために、データ生成と最適化の両方の目的において、VLMの論理感度を高めるために設計された新しいトレーニングフレームワークLogicCLIPを提案する。
LogicCLIPは、論理認識データ生成と、粗粒度アライメント、細粒度多重選択目的、新しい論理構造認識目的を組み合わせたコントラスト学習戦略を利用する。
大規模な実験では、LogicCLIPが全てのLogicBenchドメインにおける論理的理解を大幅に改善し、ベースラインを大幅に上回った。
さらに、LogicCLIPは一般的な視覚言語ベンチマークにおける競合性能を維持し、拡張された論理的理解が一般的なアライメントを犠牲にしないことを示した。
LogicBench と LogicCLIP は,VLM の論理能力を向上するための重要なリソースとなると思います。
関連論文リスト
- SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models [60.088066516175026]
視覚言語モデル(VLM)の空間論理的推論能力を評価するためのベンチマークを導入する。
41の主流VLMに対して広範な実験を行い、最も先進的なモデルでさえも空間的論理的推論に苦戦していることを示す。
本稿では,視覚基盤モデルを利用して複雑なシーンをタスク関連シーングラフに段階的に分解する再帰的シーングラフ支援手法を提案する。
論文 参考訳(メタデータ) (2026-02-24T13:38:37Z) - Logical Phase Transitions: Understanding Collapse in LLM Logical Reasoning [17.5066777599458]
記号的論理的推論は、大言語モデル(LLM)の批判的だが未発見の機能である
論理的推論性能は政権内では安定だが, 批判的論理的深度を超えて急激に崩壊することを示す。
本稿では,自然言語と論理記号を適応的にアライメントし,共有表現を確立する原理的フレームワークであるNeuro-Symbolic Curriculum Tuningを提案する。
論文 参考訳(メタデータ) (2026-01-06T10:38:25Z) - LogicLens: Visual-Logical Co-Reasoning for Text-Centric Forgery Analysis [10.305807834419765]
テキスト中心の偽造は、社会保障と情報認証に重大な脅威をもたらす。
テキスト中心の偽造分析の現在の手法は、粗い粒度の視覚分析に限られることが多い。
LogicLens は Visual-Textual Co-reasoning のための統合フレームワークである。
論文 参考訳(メタデータ) (2025-12-25T03:02:27Z) - Last Layer Logits to Logic: Empowering LLMs with Logic-Consistent Structured Knowledge Reasoning [55.55968342644846]
大規模言語モデル(LLM)は、膨大な非構造化テキストの事前学習を通じて、自然言語推論タスクにおいて優れた性能を達成する。
LLM出力の論理的欠陥を修正するために,ロジット強化とロジットフィルタリングをコアモジュールとして組み込んだ textitLogits-to-Logic フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T07:08:27Z) - From Ambiguity to Verdict: A Semiotic-Grounded Multi-Perspective Agent for LLM Logical Reasoning [16.381034926435074]
LogicAgentは、論理的な複雑さと意味的な複雑さを共同で扱うように設計された、セミオティックな2乗誘導フレームワークである。
既存のデータセットのセマンティックな単純さと論理的な複雑さを克服するために、大学レベルの難易度に達するベンチマークであるRepublicQAを導入する。
LogicAgentはRepublicQAで最先端のパフォーマンスを実現しており、強いベースラインよりも平均6.25%向上している。
論文 参考訳(メタデータ) (2025-09-29T13:31:22Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Discourse-Aware Graph Networks for Textual Logical Reasoning [142.0097357999134]
パッセージレベルの論理関係は命題単位間の係り合いまたは矛盾を表す(例、結論文)
論理的推論QAを解くための論理構造制約モデリングを提案し、談話対応グラフネットワーク(DAGN)を導入する。
ネットワークはまず、インラインの談話接続とジェネリック論理理論を利用した論理グラフを構築し、その後、エッジ推論機構を用いて論理関係を進化させ、グラフ機能を更新することで論理表現を学習する。
論文 参考訳(メタデータ) (2022-07-04T14:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。