論文の概要: Visual Puns from Idioms: An Iterative LLM-T2IM-MLLM Framework
- arxiv url: http://arxiv.org/abs/2511.22943v1
- Date: Fri, 28 Nov 2025 07:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.805571
- Title: Visual Puns from Idioms: An Iterative LLM-T2IM-MLLM Framework
- Title(参考訳): Idioms による Visual Puns: 反復 LLM-T2IM-MLLM フレームワーク
- Authors: Kelaiti Xiao, Liang Yang, Dongyu Zhang, Paerhati Tulajiang, Hongfei Lin,
- Abstract要約: 我々は,イディオムのリテラルと図形的意味を一致させるイディオムに基づく視覚的刺激について検討した。
本稿では,大規模言語モデル(LLM),テキスト・ツー・イメージモデル(T2IM),マルチモーダルLLM(MLLM)を協調する反復的フレームワークを提案する。
イディオムを与えられたシステムは、詳細な視覚的プロンプトを反復的に生成し、画像からイディオムを推測し、認識が成功するかステップ限界に達するまでプロンプトを洗練する。
- 参考スコア(独自算出の注目度): 22.840166101386625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study idiom-based visual puns--images that align an idiom's literal and figurative meanings--and present an iterative framework that coordinates a large language model (LLM), a text-to-image model (T2IM), and a multimodal LLM (MLLM) for automatic generation and evaluation. Given an idiom, the system iteratively (i) generates detailed visual prompts, (ii) synthesizes an image, (iii) infers the idiom from the image, and (iv) refines the prompt until recognition succeeds or a step limit is reached. Using 1,000 idioms as inputs, we synthesize a corresponding dataset of visual pun images with paired prompts, enabling benchmarking of both generation and understanding. Experiments across 10 LLMs, 10 MLLMs, and one T2IM (Qwen-Image) show that MLLM choice is the primary performance driver: GPT achieves the highest accuracies, Gemini follows, and the best open-source MLLM (Gemma) is competitive with some closed models. On the LLM side, Claude attains the strongest average performance for prompt generation.
- Abstract(参考訳): 我々は,イディオムのリテラルと図形的意味を一致させるイディオムに基づく視覚的刺激について検討し,大言語モデル(LLM),テキスト・ツー・イメージ・モデル(T2IM),マルチモーダルLLM(MLLM)を協調して自動生成・評価する反復的枠組みを提案する。
イディオムが与えられたら、システムは反復的に
(i)詳細な視覚的プロンプトを生成する。
(ii)画像の合成
三 画像からイディオムを推測し、
(iv) 認識が成功するか段階限界に達するまで、プロンプトを洗練させる。
1000イディオムを入力として、ペア化されたプロンプトで対応する視覚的刺激画像のデータセットを合成し、生成と理解の両方のベンチマークを可能にする。
10のLLM、10のMLLM、10のT2IM(Qwen-Image)での実験では、MLLMの選択が主要なパフォーマンスドライバであることが示されている。
LLM側では、クロードは即時生成において最も高い平均性能を得る。
関連論文リスト
- Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。
本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。
モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文 参考訳(メタデータ) (2025-06-18T17:14:07Z) - HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。
視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。
実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-20T18:59:59Z) - PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。
我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文 参考訳(メタデータ) (2024-10-30T15:05:17Z) - Auto-Encoding Morph-Tokens for Multimodal LLM [151.2618346912529]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。
実験により、モルヒネはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文 参考訳(メタデータ) (2024-05-03T08:43:06Z) - The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen
LLMs [124.29233620842462]
画像やビデオなどの非言語的モダリティを含む理解タスクと生成タスクを,凍結したLLMで実現するためのSPAEを導入する。
結果として得られる語彙トークンは、意味的意味と視覚的再構成に必要な細部の両方をキャプチャする。
提案手法は,凍結したLCMが画像理解タスクの最先端性能を25%以上越えながら,画像コンテンツを生成できるようにする試みとして,初めて成功した試みである。
論文 参考訳(メタデータ) (2023-06-30T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。