論文の概要: Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint
- arxiv url: http://arxiv.org/abs/2505.23759v1
- Date: Thu, 29 May 2025 17:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.085503
- Title: Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint
- Title(参考訳): ビジュアライズされた「視覚言語モデル」がヒントを得られない時
- Authors: Heekyung Lee, Jiaxin Ge, Tsung-Han Wu, Minwoo Kang, Trevor Darrell, David M. Chan,
- Abstract要約: 画像、空間配置、記号置換を通じて言語を符号化するリバスパズルは、現在の視覚言語モデル(VLM)に固有の課題をもたらす。
本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,多種多様な英語リバスパズルの手書きおよび注釈付きベンチマークを構築して検討する。
- 参考スコア(独自算出の注目度): 48.35508965276618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rebus puzzles, visual riddles that encode language through imagery, spatial arrangement, and symbolic substitution, pose a unique challenge to current vision-language models (VLMs). Unlike traditional image captioning or question answering tasks, rebus solving requires multi-modal abstraction, symbolic reasoning, and a grasp of cultural, phonetic and linguistic puns. In this paper, we investigate the capacity of contemporary VLMs to interpret and solve rebus puzzles by constructing a hand-generated and annotated benchmark of diverse English-language rebus puzzles, ranging from simple pictographic substitutions to spatially-dependent cues ("head" over "heels"). We analyze how different VLMs perform, and our findings reveal that while VLMs exhibit some surprising capabilities in decoding simple visual clues, they struggle significantly with tasks requiring abstract reasoning, lateral thinking, and understanding visual metaphors.
- Abstract(参考訳): リバスパズル(Rebus puzzles)は、画像、空間配置、象徴的な置換を通じて言語を符号化する視覚的な謎であり、現在の視覚言語モデル(VLM)に固有の課題である。
従来のイメージキャプションや質問応答のタスクとは異なり、リバスの解決には多モーダルな抽象化、象徴的推論、文化的、音声的、言語的な句の把握が必要である。
本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,簡単な画像置換から空間依存的キュー("頭"から"頭")まで,多種多様な英語リバスパズルのハンド生成および注釈付きベンチマークを構築して検討する。
我々は、VLMがどう機能するかを分析し、VLMが単純な視覚的手がかりをデコードする驚くべき能力を示す一方で、抽象的推論、側方的思考、視覚的メタファーの理解を必要とするタスクにかなり苦労していることを明らかにする。
関連論文リスト
- Chatting with Images for Introspective Visual Thinking [50.7747647794877]
「画像の変更」は、視覚操作を言語誘導の機能変調として再編成する新しいフレームワークである。
表現型言語プロンプトの指導の下で、モデルは複数の画像領域上で動的に共同再符号化を行う。
ViLaVTは、複雑なマルチイメージとビデオベースの空間推論タスクにおいて、強力で一貫した改善を実現する。
論文 参考訳(メタデータ) (2026-02-11T17:42:37Z) - Eye-Q: A Multilingual Benchmark for Visual Word Puzzle Solving and Image-to-Phrase Reasoning [1.6234264741872295]
VLM(Vision-Language Models)は、標準のビジョン言語ベンチマークにおいて強力なパフォーマンスを実現している。
視覚的単語パズルは、暗黙的な視覚的手がかりの発見、仮説の生成と修正、エビデンスを非文学的概念にマッピングする必要があるため、難解な代替手段として提案する。
我々は、この複雑な視覚的理解の形式を評価するために設計された多言語ベンチマークであるEye-Qを紹介する。
論文 参考訳(メタデータ) (2026-01-06T20:27:29Z) - Seq2Seq Models Reconstruct Visual Jigsaw Puzzles without Seeing Them [2.8834483859625952]
本稿では,各パズルピースをトークンの離散列に変換する特殊トークン化器を提案する。
ブラインド」ソルバとして扱われ、エンコーダ・デコーダ変換器は元のレイアウトを正確に再構築した。
視覚的な入力を意図的に制限されているにもかかわらず、我々のモデルは最先端の結果を得る。
論文 参考訳(メタデータ) (2025-11-09T10:43:16Z) - Reasoning Riddles: How Explainability Reveals Cognitive Limits in Vision-Language Models [0.0]
視覚言語モデル(VLM)は多くのマルチモーダルなタスクに優れるが、認知過程はリバスパズルのような複雑な横方向の思考課題に不透明である。
本研究は、6つの認知カテゴリーにまたがる221のリバスパズルの体系的な注釈付きデータセットに、推論品質と回答の正しさを区別する評価フレームワークを組み合わさったものである。
本研究は,視覚構成の体系的強みを示すモデルを用いて,推論品質がパズルのカテゴリによって劇的に変化することを示すとともに,不在解釈の基本的な限界と文化的象徴性を示すことを示した。
論文 参考訳(メタデータ) (2025-10-03T07:27:47Z) - VLHSA: Vision-Language Hierarchical Semantic Alignment for Jigsaw Puzzle Solving with Eroded Gaps [3.6380495892295173]
本稿では,テキストコンテキストを利用した視覚言語フレームワークを提案し,パズルの組立性能を向上させる。
我々のアプローチは、VLHSA(Vision-Language Hierarchical Semantic Alignment)モジュールを中心にしている。
本研究は,マルチモーダルな意味的洞察を取り入れたジグソーパズル解法の新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-09-17T20:40:52Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Enhancing Visual Reasoning with Autonomous Imagination in Multimodal Large Language Models [27.78471707423076]
本稿では,MLLMが入力シーンをその推論状態に基づいて自動修正できる新しい視覚推論パラダイムを提案する。
そこで我々は,MLLMが焦点,無視,変換といった操作を通じて視覚的な修正を行う,新しいプラグアンドプレイの想像空間を導入する。
我々は,厳密な数え上げ,単純なジグソーパズルの解法,オブジェクト配置にまたがるベンチマークを用いて,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-11-27T08:44:25Z) - Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you! [14.84123301554462]
語彙的曖昧さの解消におけるマルチモーダル入力の影響を評価するための新しいベンチマークUNPIEを提案する。
私たちのデータセットには1,000個の句が含まれており、それぞれに両方の意味を説明する画像が添付されています。
その結果,様々なソクラティック・モデルとビジュアル・ランゲージ・モデルにより,視覚的コンテキストが与えられた場合に,テキストのみのモデルよりも改善されることが示された。
論文 参考訳(メタデータ) (2024-10-01T19:32:57Z) - RISCORE: Enhancing In-Context Riddle Solving in Language Models through Context-Reconstructed Example Augmentation [1.9939549451457024]
本稿では,多様な推論技術を必要とする滑車の性能に異なるプロンプト技術がどう影響するかを考察する。
本稿では,文脈的に再構成された文ベースのパズルを生成し,活用する完全自動プロンプト手法RISCOREを紹介する。
実験の結果,RISCOREは言語モデルの性能を縦・横ともに向上させることがわかった。
論文 参考訳(メタデータ) (2024-09-24T18:35:09Z) - Auto-Encoding Morph-Tokens for Multimodal LLM [151.2618346912529]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。
実験により、モルヒネはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文 参考訳(メタデータ) (2024-05-03T08:43:06Z) - Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。
我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文 参考訳(メタデータ) (2024-03-12T17:59:51Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。