論文の概要: Hidden Meanings in Plain Sight: RebusBench for Evaluating Cognitive Visual Reasoning
- arxiv url: http://arxiv.org/abs/2604.01764v1
- Date: Thu, 02 Apr 2026 08:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.615804
- Title: Hidden Meanings in Plain Sight: RebusBench for Evaluating Cognitive Visual Reasoning
- Title(参考訳): 平地における隠れた意味:認知的視覚的推論を評価するRebusBench
- Authors: Seyed Amir Kasaei, Arash Marioriyad, Mahbod Khaleti, MohammadAmin Fazli, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban,
- Abstract要約: 現在のモデルは、情報が明示的に表現されていない問題を解くのに必要な、複雑で多段階の推論に苦しむ。
認識と知識の特定の統合をテストするために設計された1,164のパズルのベンチマークであるRebusBenchを紹介する。
提案手法の評価では, 性能が10%未満に飽和し, セマンティックな精度が20%であった。
- 参考スコア(独自算出の注目度): 14.135916464098317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved remarkable proficiency in explicit visual recognition, effectively describing what is directly visible in an image. However, a critical cognitive gap emerges when the visual input serves only as a clue rather than the answer. We identify that current models struggle with the complex, multi-step reasoning required to solve problems where information is not explicitly depicted. Successfully solving a rebus puzzle requires a distinct cognitive workflow: the model must extract visual and textual attributes, retrieve linguistic prior knowledge (such as idioms), and perform abstract mapping to synthesize these elements into a meaning that exists outside the pixel space. To evaluate this neurosymbolic capability, we introduce RebusBench, a benchmark of 1,164 puzzles designed to test this specific integration of perception and knowledge. Our evaluation of state-of-the-art models (including Qwen, InternVL, and LLaVA) shows a severe deficiency: performance saturates below 10% Exact Match and 20% semantic accuracy, with no significant improvement observed from model scaling or In-Context Learning (ICL). These findings suggest that while models possess the necessary visual and linguistic components, they lack the cognitive reasoning glue to connect them. Project page available at https://amirkasaei.com/rebusbench/.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、画像内で直接見えるものを効果的に記述し、明示的な視覚認識において顕著な熟練性を実現している。
しかし、視覚的な入力が答えではなく手がかりとしてのみ機能すると、批判的な認知的ギャップが生じる。
現在のモデルは、情報が明示的に表現されていない問題を解くのに必要な、複雑で多段階の推論に苦しむ。
モデルは視覚的およびテキスト的属性を抽出し、言語的事前知識(イディオムなど)を検索し、これらの要素をピクセル空間の外に存在する意味に合成するための抽象的なマッピングを実行する必要がある。
このニューロシンボリックな能力を評価するために、認識と知識の特定の統合をテストするために設計された1,164個のパズルのベンチマークであるRebusBenchを紹介する。
Qwen, InternVL, LLaVAを含む最先端モデルの評価では, 性能が10%未満に飽和し, セマンティック精度が20%に低下し, モデルスケーリングやインコンテクスト学習(ICL)から有意な改善が得られなかった。
これらの結果は、モデルが必要な視覚的・言語的要素を持っている一方で、それらを結ぶための認知的推論の接着剤が欠けていることを示唆している。
プロジェクトページはhttps://amirkasaei.com/rebusbench/.comで公開されている。
関連論文リスト
- Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。
実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。
私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文 参考訳(メタデータ) (2026-02-02T02:19:50Z) - Eye-Q: A Multilingual Benchmark for Visual Word Puzzle Solving and Image-to-Phrase Reasoning [1.6234264741872295]
VLM(Vision-Language Models)は、標準のビジョン言語ベンチマークにおいて強力なパフォーマンスを実現している。
視覚的単語パズルは、暗黙的な視覚的手がかりの発見、仮説の生成と修正、エビデンスを非文学的概念にマッピングする必要があるため、難解な代替手段として提案する。
我々は、この複雑な視覚的理解の形式を評価するために設計された多言語ベンチマークであるEye-Qを紹介する。
論文 参考訳(メタデータ) (2026-01-06T20:27:29Z) - Does Visual Grounding Enhance the Understanding of Embodied Knowledge in Large Language Models? [5.726418224480853]
視覚言語モデル(VLM)は、どちらのタスクでもテキストのみのモデルより優れているわけではない。
VLMは、他の知覚次元と比較して視覚次元が著しく悪い。
本研究は,マルチモーダル言語モデルにおけるエンボディド知識のより効果的な統合の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-10-19T16:43:04Z) - Unveiling the Response of Large Vision-Language Models to Visually Absent Tokens [43.43888632864549]
LVLM(Large Vision-Language Models)は、視覚とテキストの入力を共同で解釈することで、文脈的に関連する応答を生成する。
我々は,LVLMが画像中にテキスト概念が存在するかどうかを判断する内部能力を持っているかどうかを調査する。
入力トークンが視覚的に接地されているかどうかを系統的に分類する検出モジュールを開発する。
論文 参考訳(メタデータ) (2025-09-03T05:17:25Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。