論文の概要: Visual Funnel: Resolving Contextual Blindness in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2512.10362v1
- Date: Thu, 11 Dec 2025 07:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.243334
- Title: Visual Funnel: Resolving Contextual Blindness in Multimodal Large Language Models
- Title(参考訳): 視覚ファンネル:多モーダル大言語モデルにおける文脈的盲点の解消
- Authors: Woojun Jung, Jaehoon Go, Mingyu Jeon, Sunjae Yoon, Junyeong Kim,
- Abstract要約: MLLM(Multimodal Large Language Models)は印象的な推論能力を示すが、細かな視覚的詳細を認識できないことが多い。
我々は、それらが導入する限界「文脈的盲点」を識別する。
この失敗は、(作物から)高忠実度の詳細とより広いグローバルな文脈の間の構造的な切断によって起こる。
この制限は、情報「量」の欠如ではなく、モデル入力における「構造的多様性」の欠如によるものである、と我々は主張する。
- 参考スコア(独自算出の注目度): 10.869543658386094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) demonstrate impressive reasoning capabilities, but often fail to perceive fine-grained visual details, limiting their applicability in precision-demanding tasks. While methods that crop salient regions of an image offer a partial solution, we identify a critical limitation they introduce: "Contextual Blindness". This failure occurs due to structural disconnect between high-fidelity details (from the crop) and the broader global context (from the original image), even when all necessary visual information is present. We argue that this limitation stems not from a lack of information 'Quantity', but from a lack of 'Structural Diversity' in the model's input. To resolve this, we propose Visual Funnel, a training-free, two-step approach. Visual Funnel first performs Contextual Anchoring to identify the region of interest in a single forward pass. It then constructs an Entropy-Scaled Portfolio that preserves the hierarchical context - ranging from focal detail to broader surroundings - by dynamically determining crop sizes based on attention entropy and refining crop centers. Through extensive experiments, we demonstrate that Visual Funnel significantly outperforms naive single-crop and unstructured multi-crop baselines. Our results further validate that simply adding more unstructured crops provides limited or even detrimental benefits, confirming that the hierarchical structure of our portfolio is key to resolving Contextual Blindness.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は印象的な推論能力を示すが、細かな視覚的詳細を認識できず、精度の高い要求タスクに適用性を制限する。
画像の顕著な領域を収穫する手法は部分解を提供するが、それらが導入する限界である「文脈的盲点」を識別する。
この失敗は、必要な視覚情報がすべて存在する場合でも、高忠実度の詳細(作物から)とより広いグローバルコンテキスト(原画像から)の間の構造的な切断によって起こる。
この制限は、情報「量」の欠如ではなく、モデル入力における「構造的多様性」の欠如によるものである、と我々は主張する。
これを解決するために、トレーニング不要で2段階のアプローチであるVisual Funnelを提案する。
Visual Funnelは、まずContextual Anchoringを実行して、単一のフォワードパスにおける関心領域を特定する。
次にエントロピースケールのポートフォリオを構築し、注目のエントロピーに基づいて作物のサイズを動的に決定し、作物中心を精製することで、焦点の細部から広い環境まで、階層的な文脈を保存する。
広範にわたる実験により、ビジュアルファンネルは、単純かつ非構造的なマルチクロップベースラインよりも著しく優れることを示した。
我々の結果は、より非構造的な作物を追加するだけで限定的または有害な利益が得られることをさらに証明し、ポートフォリオの階層構造が文脈的盲点の解消の鍵であることを確認します。
関連論文リスト
- The Power of Context: How Multimodality Improves Image Super-Resolution [42.21009967392721]
シングルイメージ超解像(SISR)は、低解像度入力から微細な細部を復元することが本質的に困難であるため、依然として困難である。
本稿では、複数のモードで利用可能なリッチな文脈情報を活用して、SISRの強力な生成前処理を学習する手法を提案する。
我々のモデルは最先端のSISR法を超越し、優れた視覚的品質と忠実さを実現している。
論文 参考訳(メタデータ) (2025-03-18T17:59:54Z) - CoF: Coarse to Fine-Grained Image Understanding for Multi-modal Large Language Models [16.91226496250909]
マルチモーダルな理解は、粗いものから細かいものへと、2つの段階に分けられる。
第1段階では,MLLMに回答のほぼ面積を特定するよう促す。
第2段階では、視覚的なプロンプトエンジニアリングにより、関連する領域に対するモデルの焦点をさらに強化する。
論文 参考訳(メタデータ) (2024-12-22T05:42:40Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - An attention-driven hierarchical multi-scale representation for visual
recognition [3.3302293148249125]
畳み込みニューラルネットワーク(CNN)は、視覚内容の理解に革命をもたらした。
グラフ畳み込みネットワーク(GCN)を探索することにより,高レベルの長距離依存関係を捕捉する手法を提案する。
本手法は,細粒度と総称的な視覚的分類の両問題を解くのに極めて効果的である。
論文 参考訳(メタデータ) (2021-10-23T09:22:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。