論文の概要: VCU-Bridge: Hierarchical Visual Connotation Understanding via Semantic Bridging
- arxiv url: http://arxiv.org/abs/2511.18121v1
- Date: Sat, 22 Nov 2025 17:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.639398
- Title: VCU-Bridge: Hierarchical Visual Connotation Understanding via Semantic Bridging
- Title(参考訳): VCU-Bridge:セマンティックブリッジによる階層的視覚的意味理解
- Authors: Ming Zhong, Yuanlei Wang, Liuzhou Zhang, Arctanx An, Renrui Zhang, Hao Liang, Ming Lu, Ying Shen, Wentao Zhang,
- Abstract要約: 視覚的意味理解の人間的な階層を運用するフレームワークであるVCU-Bridgeを提案する。
このフレームワーク上に構築したHVCU-Benchは、階層的視覚的意味理解のためのベンチマークであり、明確なレベルの診断を行う。
- 参考スコア(独自算出の注目度): 49.55286536996476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) excel on benchmarks, their processing paradigm differs from the human ability to integrate visual information. Unlike humans who naturally bridge details and high-level concepts, models tend to treat these elements in isolation. Prevailing evaluation protocols often decouple low-level perception from high-level reasoning, overlooking their semantic and causal dependencies, which yields non-diagnostic results and obscures performance bottlenecks. We present VCU-Bridge, a framework that operationalizes a human-like hierarchy of visual connotation understanding: multi-level reasoning that advances from foundational perception through semantic bridging to abstract connotation, with an explicit evidence-to-inference trace from concrete cues to abstract conclusions. Building on this framework, we construct HVCU-Bench, a benchmark for hierarchical visual connotation understanding with explicit, level-wise diagnostics. Comprehensive experiments demonstrate a consistent decline in performance as reasoning progresses to higher levels. We further develop a data generation pipeline for instruction tuning guided by Monte Carlo Tree Search (MCTS) and show that strengthening low-level capabilities yields measurable gains at higher levels. Interestingly, it not only improves on HVCU-Bench but also brings benefits on general benchmarks (average +2.53%), especially with substantial gains on MMStar (+7.26%), demonstrating the significance of the hierarchical thinking pattern and its effectiveness in enhancing MLLM capabilities. The project page is at https://vcu-bridge.github.io .
- Abstract(参考訳): MLLM(Multimodal Large Language Models)はベンチマークに優れているが、その処理パラダイムは人間の視覚情報の統合能力とは異なる。
詳細と高レベルの概念を自然に橋渡しする人間とは異なり、モデルはこれらの要素を分離して扱う傾向がある。
一般的な評価プロトコルは、しばしば高レベルの推論から低レベルの認識を分離し、それらの意味的および因果的依存関係を見落とし、非診断的な結果をもたらし、パフォーマンスのボトルネックを曖昧にする。
本稿では,視覚的意味理解の人間的な階層を運用するフレームワークであるVCU-Bridgeについて述べる。
このフレームワーク上に構築したHVCU-Benchは、階層的視覚的意味理解のためのベンチマークであり、明確なレベルの診断を行う。
総合的な実験は、推論がより高いレベルに進むにつれて、パフォーマンスが一貫した低下を示す。
さらに,モンテカルロ木探索 (MCTS) による指導指導のためのデータ生成パイプラインを開発し,低レベル能力の強化がより高いレベルで測定可能なゲインをもたらすことを示す。
興味深いことに、HVCU-Benchの改善だけでなく、一般的なベンチマーク(平均+2.53%)にもメリットをもたらし、特にMMStar(+7.26%)は、階層的思考パターンの重要性とMLLM能力の向上におけるその効果を示す。
プロジェクトページはhttps://vcu-bridge.github.io にある。
関連論文リスト
- Prompt the Unseen: Evaluating Visual-Language Alignment Beyond Supervision [22.712690974750007]
VLM(Vision-Language Models)は、視覚エンコーダと大規模言語モデル(LLM)を組み合わせたアライメントトレーニングである。
その重要性にもかかわらず、投影層が見えない視覚概念を一般化する能力は体系的に評価されていない。
本研究ではアライメント一般化のための新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-31T05:00:51Z) - Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:00:57Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning [125.79428219851289]
Inst-ITは、明示的な視覚的プロンプトインストラクションチューニングを通じてインスタンス理解におけるLMMを強化するソリューションである。
Inst-ITは、マルチモーダルなインスタンスレベルの理解を診断するためのベンチマーク、大規模命令チューニングデータセット、継続的命令チューニングトレーニングパラダイムで構成されている。
論文 参考訳(メタデータ) (2024-12-04T18:58:10Z) - DEAL: Disentangle and Localize Concept-level Explanations for VLMs [10.397502254316645]
大きな訓練済みのビジョンランゲージモデルでは、きめ細かい概念を特定できないかもしれない。
本研究では,人間のアノテーションを使わずに概念のDisEnt and Localize(アングル)概念レベルの説明を提案する。
実験結果から,提案手法はモデルの概念レベルの説明を,不整合性と局所性の観点から著しく改善することを示した。
論文 参考訳(メタデータ) (2024-07-19T15:39:19Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。