Fugu-MT 論文翻訳(概要): Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint

論文の概要: Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint

arxiv url: http://arxiv.org/abs/2505.23759v1
Date: Thu, 29 May 2025 17:59:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:08.085503
Title: Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint
Title（参考訳）: ビジュアライズされた「視覚言語モデル」がヒントを得られない時
Authors: Heekyung Lee, Jiaxin Ge, Tsung-Han Wu, Minwoo Kang, Trevor Darrell, David M. Chan,
Abstract要約: 画像、空間配置、記号置換を通じて言語を符号化するリバスパズルは、現在の視覚言語モデル(VLM)に固有の課題をもたらす。本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,多種多様な英語リバスパズルの手書きおよび注釈付きベンチマークを構築して検討する。
参考スコア（独自算出の注目度）: 48.35508965276618
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Rebus puzzles, visual riddles that encode language through imagery, spatial arrangement, and symbolic substitution, pose a unique challenge to current vision-language models (VLMs). Unlike traditional image captioning or question answering tasks, rebus solving requires multi-modal abstraction, symbolic reasoning, and a grasp of cultural, phonetic and linguistic puns. In this paper, we investigate the capacity of contemporary VLMs to interpret and solve rebus puzzles by constructing a hand-generated and annotated benchmark of diverse English-language rebus puzzles, ranging from simple pictographic substitutions to spatially-dependent cues ("head" over "heels"). We analyze how different VLMs perform, and our findings reveal that while VLMs exhibit some surprising capabilities in decoding simple visual clues, they struggle significantly with tasks requiring abstract reasoning, lateral thinking, and understanding visual metaphors.
Abstract（参考訳）: リバスパズル(Rebus puzzles)は、画像、空間配置、象徴的な置換を通じて言語を符号化する視覚的な謎であり、現在の視覚言語モデル(VLM)に固有の課題である。従来のイメージキャプションや質問応答のタスクとは異なり、リバスの解決には多モーダルな抽象化、象徴的推論、文化的、音声的、言語的な句の把握が必要である。本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,簡単な画像置換から空間依存的キュー("頭"から"頭")まで,多種多様な英語リバスパズルのハンド生成および注釈付きベンチマークを構築して検討する。我々は、VLMがどう機能するかを分析し、VLMが単純な視覚的手がかりをデコードする驚くべき能力を示す一方で、抽象的推論、側方的思考、視覚的メタファーの理解を必要とするタスクにかなり苦労していることを明らかにする。

関連論文リスト

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文参考訳（メタデータ） (2025-03-30T20:03:36Z)
Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
Enhancing Visual Reasoning with Autonomous Imagination in Multimodal Large Language Models [27.78471707423076]
本稿では,MLLMが入力シーンをその推論状態に基づいて自動修正できる新しい視覚推論パラダイムを提案する。そこで我々は,MLLMが焦点,無視,変換といった操作を通じて視覚的な修正を行う,新しいプラグアンドプレイの想像空間を導入する。我々は,厳密な数え上げ,単純なジグソーパズルの解法,オブジェクト配置にまたがるベンチマークを用いて,我々のアプローチを検証する。
論文参考訳（メタデータ） (2024-11-27T08:44:25Z)
Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you! [14.84123301554462]
語彙的曖昧さの解消におけるマルチモーダル入力の影響を評価するための新しいベンチマークUNPIEを提案する。私たちのデータセットには1,000個の句が含まれており、それぞれに両方の意味を説明する画像が添付されています。その結果,様々なソクラティック・モデルとビジュアル・ランゲージ・モデルにより,視覚的コンテキストが与えられた場合に,テキストのみのモデルよりも改善されることが示された。
論文参考訳（メタデータ） (2024-10-01T19:32:57Z)
RISCORE: Enhancing In-Context Riddle Solving in Language Models through Context-Reconstructed Example Augmentation [1.9939549451457024]
本稿では,多様な推論技術を必要とする滑車の性能に異なるプロンプト技術がどう影響するかを考察する。本稿では,文脈的に再構成された文ベースのパズルを生成し,活用する完全自動プロンプト手法RISCOREを紹介する。実験の結果,RISCOREは言語モデルの性能を縦・横ともに向上させることがわかった。
論文参考訳（メタデータ） (2024-09-24T18:35:09Z)
Auto-Encoding Morph-Tokens for Multimodal LLM [151.2618346912529]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。実験により、モルヒネはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文参考訳（メタデータ） (2024-05-03T08:43:06Z)
Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文参考訳（メタデータ） (2024-03-12T17:59:51Z)
Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。 QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文参考訳（メタデータ） (2023-12-04T03:18:51Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。