論文の概要: ChromouVQA: Benchmarking Vision-Language Models under Chromatic Camouflaged Images
- arxiv url: http://arxiv.org/abs/2512.05137v1
- Date: Sun, 30 Nov 2025 23:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.749224
- Title: ChromouVQA: Benchmarking Vision-Language Models under Chromatic Camouflaged Images
- Title(参考訳): クロモウVQA:クロマティックカモフラージュ画像に基づく視覚言語モデルのベンチマーク
- Authors: Yunfei Zhang, Yizhuo He, Yuanxun Shao, Zhengtao Yao, Haoyan Xu, Junhao Dong, Zhen Yao, Zhikang Dong,
- Abstract要約: ChromouVQAは、石原式クロマティックカモフラージュ画像に基づく大規模マルチタスクベンチマークである。
このベンチマークでは、認識、カウント、比較、空間的推論を含む、9つの視覚的問合せタスクがカバーされている。
そこで本研究では,カモフラージュレンダリングと整合したモデル非依存のコントラストレシピを提案し,グローバルな形状の復元を改善した。
- 参考スコア(独自算出の注目度): 9.097814735614113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have advanced multimodal understanding, yet still struggle when targets are embedded in cluttered backgrounds requiring figure-ground segregation. To address this, we introduce ChromouVQA, a large-scale, multi-task benchmark based on Ishihara-style chromatic camouflaged images. We extend classic dot plates with multiple fill geometries and vary chromatic separation, density, size, occlusion, and rotation, recording full metadata for reproducibility. The benchmark covers nine vision-question-answering tasks, including recognition, counting, comparison, and spatial reasoning. Evaluations of humans and VLMs reveal large gaps, especially under subtle chromatic contrast or disruptive geometric fills. We also propose a model-agnostic contrastive recipe aligning silhouettes with their camouflaged renderings, improving recovery of global shapes. ChromouVQA provides a compact, controlled benchmark for reproducible evaluation and extension. Code and dataset are available at https://github.com/Chromou-VQA-Benchmark/Chromou-VQA.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダルな理解が進んでいるが、図形の分離を必要とする乱雑な背景にターゲットが埋め込まれている場合、依然として苦戦している。
そこで本研究では,石原式クロマティックカモフラージュ画像に基づく大規模マルチタスクベンチマークであるChromouVQAを紹介する。
古典的なドットプレートを複数のフィリングジオメトリで拡張し、色分離、密度、サイズ、閉塞、回転を変化させ、再現性のための完全なメタデータを記録する。
このベンチマークでは、認識、カウント、比較、空間的推論を含む、9つの視覚的問合せタスクがカバーされている。
人間とVLMの評価は、特に微妙な色調のコントラストや破壊的な幾何学的フィリングの下で大きなギャップを示す。
また, シルエットをカモフラージュしたレンダリングと整列させ, グローバルな形状を復元するモデルに依存しないコントラストレシピを提案する。
ChromouVQAは再現可能な評価と拡張のためのコンパクトで制御されたベンチマークを提供する。
コードとデータセットはhttps://github.com/Chromou-VQA-Benchmark/Chromou-VQAで入手できる。
関連論文リスト
- OmniVGGT: Omni-Modality Driven Visual Geometry Grounded Transformer [48.16706802780516]
一般的な3Dファウンデーションモデルは、多様なビジョンタスクの統合のトレンドを導い始めている。
OmniVGTは、トレーニングと推論の両方において、任意の数の補助モダリティを効果的に活用できる新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-13T17:59:01Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。
視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。
視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文 参考訳(メタデータ) (2024-10-08T18:31:41Z) - Dilated Convolution with Learnable Spacings makes visual models more aligned with humans: a Grad-CAM study [1.3654846342364308]
DCLSは、いくつかのコンピュータビジョンベンチマークにおいて標準および拡張畳み込みよりも優れていることが示されている。
さらに、DCLSは人間の視覚的戦略との整合性として定義されるモデルの解釈可能性を高めていることを示す。
論文 参考訳(メタデータ) (2024-08-06T13:05:32Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - VoGE: A Differentiable Volume Renderer using Gaussian Ellipsoids for
Analysis-by-Synthesis [62.47221232706105]
本稿では,ガウス再構成カーネルをボリュームプリミティブとして利用するVoGEを提案する。
本稿では,VoGEを用いて効率よくレンダリングを行うために,体積密度集約と粗大な描画戦略に関する近似クローズフォーム解を提案する。
VoGEは、オブジェクトポーズ推定、形状/テクスチャフィッティング、推論など、様々な視覚タスクに適用された場合、SoTAより優れている。
論文 参考訳(メタデータ) (2022-05-30T19:52:11Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Multi-Granularity Canonical Appearance Pooling for Remote Sensing Scene
Classification [0.34376560669160383]
リモートセンシングデータセットの潜在存在論的構造を自動的に捉えるために,新しいMG-CAP(Multi-Granularity Canonical Appearance Pooling)を提案する。
それぞれの特定の粒度に対して,事前定義された変換の集合から標準的外観を発見し,最大化に基づくシームズスタイルアーキテクチャを用いて対応するCNN特徴を学習する。
本稿では,GPUの固有値分解関数(EIG)を学習し,行列計算によるバックプロパゲーションを実証する安定解を提案する。
論文 参考訳(メタデータ) (2020-04-09T11:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。