論文の概要: OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2603.09326v1
- Date: Tue, 10 Mar 2026 08:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.13789
- Title: OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models
- Title(参考訳): OddGridBench: マルチモーダル大規模言語モデルにおける細粒度視差感度の欠如を露呈する
- Authors: Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming,
- Abstract要約: 我々は,MLLMの視差感度を評価するための制御可能なベンチマークであるOddGridBenchを紹介する。
実験の結果、Qwen3-VLやInternVL3.5のようなオープンソースのファミリーや、Gemini-2.5-ProやGPT-5のようなプロプライエタリなシステムを含むすべての評価されたMLLMが、視覚的差分検出において人間のレベルよりもはるかに低い性能を発揮することが明らかになった。
我々は,カリキュラム学習と距離認識報酬を統合した強化学習フレームワークOddGrid-GRPOを提案する。
- 参考スコア(独自算出の注目度): 20.960448611782585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have achieved remarkable performance across a wide range of vision language tasks. However, their ability in low-level visual perception, particularly in detecting fine-grained visual discrepancies, remains underexplored and lacks systematic analysis. In this work, we introduce OddGridBench, a controllable benchmark for evaluating the visual discrepancy sensitivity of MLLMs. OddGridBench comprises over 1,400 grid-based images, where a single element differs from all others by one or multiple visual attributes such as color, size, rotation, or position. Experiments reveal that all evaluated MLLMs, including open-source families such as Qwen3-VL and InternVL3.5, and proprietary systems like Gemini-2.5-Pro and GPT-5, perform far below human levels in visual discrepancy detection. We further propose OddGrid-GRPO, a reinforcement learning framework that integrates curriculum learning and distance-aware reward. By progressively controlling the difficulty of training samples and incorporating spatial proximity constraints into the reward design, OddGrid-GRPO significantly enhances the model's fine-grained visual discrimination ability. We hope OddGridBench and OddGrid-GRPO will lay the groundwork for advancing perceptual grounding and visual discrepancy sensitivity in multimodal intelligence. Code and dataset are available at https://wwwtttjjj.github.io/OddGridBench/.
- Abstract(参考訳): MLLM(Multimodal large language model)は、様々な視覚言語タスクにおいて顕著なパフォーマンスを実現している。
しかし、低レベルの視覚知覚能力、特にきめ細かい視差の検出能力は未探索であり、体系的な分析を欠いている。
本稿では,MLLMの視差感度を評価するための制御可能なベンチマークであるOddGridBenchを紹介する。
OddGridBenchは1,400以上のグリッドベースのイメージで構成されている。
実験の結果、Qwen3-VLやInternVL3.5のようなオープンソースのファミリーや、Gemini-2.5-ProやGPT-5のようなプロプライエタリなシステムを含むすべての評価されたMLLMが、視覚的差分検出において人間のレベルよりもはるかに低い性能を発揮することが明らかになった。
さらに,カリキュラム学習と距離認識報酬を統合した強化学習フレームワークであるOddGrid-GRPOを提案する。
トレーニングサンプルの難易度を段階的に制御し、報酬設計に空間的近接制約を組み込むことで、OddGrid-GRPOはモデルのきめ細かい視覚的識別能力を著しく向上させる。
我々は、OddGridBenchとOddGrid-GRPOが、マルチモーダルインテリジェンスにおける知覚的接地と視覚的不一致の感度を高めるための基盤となることを願っている。
コードとデータセットはhttps://wwwttjjj.github.io/OddGridBench/.orgで公開されている。
関連論文リスト
- DiG: Differential Grounding for Enhancing Fine-Grained Perception in Multimodal Large Language Model [22.28268642142352]
DiG (Differential Grounding) は、MLLM がより詳細な認識を学習する新しいプロキシ・タスク・フレームワークである。
この結果は,MLLMの微細な視覚的推論を向上するための,スケーラブルで堅牢なアプローチとして,微分接地に注目した。
論文 参考訳(メタデータ) (2025-12-14T10:40:27Z) - Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation [64.23194519770897]
8次元にわたる46のデータソースから、総合的なRL対応のビジュアル推論データセットを構築します。
このデータセットから高品質なトレーニングサンプルを識別するために,影響関数に基づくデータ選択と難易度に基づくフィルタリング手法を提案する。
我々はVLM(Vision-G1)をデータカリキュラム付きマルチラウンドRLを用いて訓練し、その視覚的推論能力を反復的に改善する。
論文 参考訳(メタデータ) (2025-08-18T07:24:33Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations [41.5875455113941]
先進的なVLNモデルが実際の環境の視覚的内容を理解しているかどうかを検討する。
意外なことに、ノイズの多い視覚入力であっても、単純な分岐展開は、パラドックス的にナビゲーションの有効性を向上する。
分岐量と視覚的品質の両方の影響を探索する多機能マルチブランチアーキテクチャ(MBA)を提案する。
論文 参考訳(メタデータ) (2024-09-09T12:17:38Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。