論文の概要: Eye-Q: A Multilingual Benchmark for Visual Word Puzzle Solving and Image-to-Phrase Reasoning
- arxiv url: http://arxiv.org/abs/2601.03400v1
- Date: Tue, 06 Jan 2026 20:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.07084
- Title: Eye-Q: A Multilingual Benchmark for Visual Word Puzzle Solving and Image-to-Phrase Reasoning
- Title(参考訳): Eye-Q:ビジュアルワードパズルの解法と画像間推論のための多言語ベンチマーク
- Authors: Ali Najar, Alireza Mirrokni, Arshia Izadyari, Sadegh Mohammadian, Amir Homayoon Sharifizade, Asal Meskin, Mobin Bagherian, Ehsaneddin Asgari,
- Abstract要約: VLM(Vision-Language Models)は、標準のビジョン言語ベンチマークにおいて強力なパフォーマンスを実現している。
視覚的単語パズルは、暗黙的な視覚的手がかりの発見、仮説の生成と修正、エビデンスを非文学的概念にマッピングする必要があるため、難解な代替手段として提案する。
我々は、この複雑な視覚的理解の形式を評価するために設計された多言語ベンチマークであるEye-Qを紹介する。
- 参考スコア(独自算出の注目度): 1.6234264741872295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have achieved strong performance on standard vision-language benchmarks, yet often rely on surface-level recognition rather than deeper reasoning. We propose visual word puzzles as a challenging alternative, as they require discovering implicit visual cues, generating and revising hypotheses, and mapping perceptual evidence to non-literal concepts in ways that are difficult to solve via literal grounding, OCR-heavy shortcuts, or simple retrieval-style matching. We introduce Eye-Q, a multilingual benchmark designed to assess this form of complex visual understanding. Eye-Q contains 1,343 puzzles in which a model observes a conceptually dense scene with a brief description and must infer a specific target word or phrase. The puzzles are intentionally unstructured and cue-implicit, with distractors and contextual relationships that demand selective attention, abstraction, and associative inference. The benchmark spans English, Persian, Arabic, and cross-lingual puzzles. We evaluate state-of-the-art VLMs using an open-ended, human-aligned protocol that probes hypothesis formation and revision under lightweight assistance. Results reveal substantial performance gaps, especially on abstract and cross-lingual puzzles, highlighting limitations in current models' ability to construct and search over appropriate conceptual representations for flexible image-to-phrase inference; maximum accuracy reaches only 60.27%.
- Abstract(参考訳): VLM(Vision-Language Models)は、標準的なビジョン言語ベンチマークにおいて強力な性能を達成しているが、深い推論よりも表面レベルの認識に依存していることが多い。
視覚的単語パズルは,暗黙的な視覚的手がかりの発見,仮説の生成と修正,さらにはリテラルグラウンド,OCR重み付きショートカット,あるいは単純な検索スタイルのマッチングによって解決し難い方法で,知覚的証拠を非文学的概念にマッピングする必要があるため,難解な代替手段として提案する。
我々は、この複雑な視覚的理解の形式を評価するために設計された多言語ベンチマークであるEye-Qを紹介する。
アイQには1,343のパズルが含まれており、モデルが概念的に密集したシーンを簡潔な記述で観察し、特定の目的語やフレーズを推測しなければならない。
パズルは意図的に非構造化されており、気を散らし、選択的な注意、抽象、連想的推論を必要とする文脈的関係を持つ。
このベンチマークは、英語、ペルシア語、アラビア語、および言語間のパズルにまたがる。
我々は、仮説形成と修正を軽量な支援の下で探索するオープンエンドのヒューマンアライメントプロトコルを用いて、最先端のVLMを評価した。
結果は、特に抽象的および言語間パズルにおいて、フレキシブルなイメージ・ツー・フレーズ推論のための適切な概念表現を構築し、探索する現在のモデルの限界を強調し、最大精度は60.27%である。
関連論文リスト
- Context Matters: Learning Global Semantics via Object-Centric Representation [8.195437248815802]
ビジョンモデルは、コンテキスト内学習において同等の進歩を見せていない。
このギャップは、現在の視覚変換器(ViT)トレーニングスキームにおける意味的および文脈的ガイダンスの欠如に起因する可能性がある、と我々は主張する。
対象」を「単語」の視覚的等価性として直接モデル化し、そのモデルに視覚要素間のグローバルな文脈と意味を学習させることを提案する。
論文 参考訳(メタデータ) (2025-10-07T08:33:36Z) - VLHSA: Vision-Language Hierarchical Semantic Alignment for Jigsaw Puzzle Solving with Eroded Gaps [3.6380495892295173]
本稿では,テキストコンテキストを利用した視覚言語フレームワークを提案し,パズルの組立性能を向上させる。
我々のアプローチは、VLHSA(Vision-Language Hierarchical Semantic Alignment)モジュールを中心にしている。
本研究は,マルチモーダルな意味的洞察を取り入れたジグソーパズル解法の新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-09-17T20:40:52Z) - Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint [57.73346054360675]
画像、空間配置、記号置換を通じて言語を符号化するリバスパズルは、現在の視覚言語モデル(VLM)に固有の課題をもたらす。
本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,多種多様な英語リバスパズルの手書きおよび注釈付きベンチマークを構築して検討する。
論文 参考訳(メタデータ) (2025-05-29T17:59:47Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。