論文の概要: Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint
- arxiv url: http://arxiv.org/abs/2505.23759v1
- Date: Thu, 29 May 2025 17:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.085503
- Title: Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint
- Title(参考訳): ビジュアライズされた「視覚言語モデル」がヒントを得られない時
- Authors: Heekyung Lee, Jiaxin Ge, Tsung-Han Wu, Minwoo Kang, Trevor Darrell, David M. Chan,
- Abstract要約: 画像、空間配置、記号置換を通じて言語を符号化するリバスパズルは、現在の視覚言語モデル(VLM)に固有の課題をもたらす。
本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,多種多様な英語リバスパズルの手書きおよび注釈付きベンチマークを構築して検討する。
- 参考スコア(独自算出の注目度): 48.35508965276618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rebus puzzles, visual riddles that encode language through imagery, spatial arrangement, and symbolic substitution, pose a unique challenge to current vision-language models (VLMs). Unlike traditional image captioning or question answering tasks, rebus solving requires multi-modal abstraction, symbolic reasoning, and a grasp of cultural, phonetic and linguistic puns. In this paper, we investigate the capacity of contemporary VLMs to interpret and solve rebus puzzles by constructing a hand-generated and annotated benchmark of diverse English-language rebus puzzles, ranging from simple pictographic substitutions to spatially-dependent cues ("head" over "heels"). We analyze how different VLMs perform, and our findings reveal that while VLMs exhibit some surprising capabilities in decoding simple visual clues, they struggle significantly with tasks requiring abstract reasoning, lateral thinking, and understanding visual metaphors.
- Abstract(参考訳): リバスパズル(Rebus puzzles)は、画像、空間配置、象徴的な置換を通じて言語を符号化する視覚的な謎であり、現在の視覚言語モデル(VLM)に固有の課題である。
従来のイメージキャプションや質問応答のタスクとは異なり、リバスの解決には多モーダルな抽象化、象徴的推論、文化的、音声的、言語的な句の把握が必要である。
本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,簡単な画像置換から空間依存的キュー("頭"から"頭")まで,多種多様な英語リバスパズルのハンド生成および注釈付きベンチマークを構築して検討する。
我々は、VLMがどう機能するかを分析し、VLMが単純な視覚的手がかりをデコードする驚くべき能力を示す一方で、抽象的推論、側方的思考、視覚的メタファーの理解を必要とするタスクにかなり苦労していることを明らかにする。
関連論文リスト
- CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Enhancing Visual Reasoning with Autonomous Imagination in Multimodal Large Language Models [27.78471707423076]
本稿では,MLLMが入力シーンをその推論状態に基づいて自動修正できる新しい視覚推論パラダイムを提案する。
そこで我々は,MLLMが焦点,無視,変換といった操作を通じて視覚的な修正を行う,新しいプラグアンドプレイの想像空間を導入する。
我々は,厳密な数え上げ,単純なジグソーパズルの解法,オブジェクト配置にまたがるベンチマークを用いて,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-11-27T08:44:25Z) - RISCORE: Enhancing In-Context Riddle Solving in Language Models through Context-Reconstructed Example Augmentation [1.9939549451457024]
本稿では,多様な推論技術を必要とする滑車の性能に異なるプロンプト技術がどう影響するかを考察する。
本稿では,文脈的に再構成された文ベースのパズルを生成し,活用する完全自動プロンプト手法RISCOREを紹介する。
実験の結果,RISCOREは言語モデルの性能を縦・横ともに向上させることがわかった。
論文 参考訳(メタデータ) (2024-09-24T18:35:09Z) - Auto-Encoding Morph-Tokens for Multimodal LLM [151.2618346912529]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。
実験により、モルヒネはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文 参考訳(メタデータ) (2024-05-03T08:43:06Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。