論文の概要: Reasoning Beyond Literal: Cross-style Multimodal Reasoning for Figurative Language Understanding
- arxiv url: http://arxiv.org/abs/2601.17197v1
- Date: Fri, 23 Jan 2026 22:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.412935
- Title: Reasoning Beyond Literal: Cross-style Multimodal Reasoning for Figurative Language Understanding
- Title(参考訳): リテラルを超えた推論: 図形言語理解のためのクロススタイルなマルチモーダル推論
- Authors: Seyyed Saeid Cheshmi, Hahnemann Ortiz, James Mooney, Dongyeop Kang,
- Abstract要約: 視覚言語モデル(VLM)は、リテラルマルチモーダルタスクにおいて強力な推論能力を示している。
皮肉、ユーモア、比喩など 比喩的な言語は 依然として重要な課題です
本稿では,効率的なマルチモーダル推論モデルを開発するための3段階のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.589552325416015
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language models (VLMs) have demonstrated strong reasoning abilities in literal multimodal tasks such as visual mathematics and science question answering. However, figurative language, such as sarcasm, humor, and metaphor, remains a significant challenge, as it conveys intent and emotion through subtle incongruities between expressed and intended meanings. In multimodal settings, accompanying images can amplify or invert textual meaning, demanding models that reason across modalities and account for subjectivity. We propose a three-step framework for developing efficient multimodal reasoning models that can (i) interpret multimodal figurative language, (ii) provide transparent reasoning traces, and (iii) generalize across multiple figurative styles. Experiments across four styles show that (1) incorporating reasoning traces substantially improves multimodal figurative understanding, (2) reasoning learned in one style can transfer to others, especially between related styles like sarcasm and humor, and (3) training jointly across styles yields a generalized reasoning VLM that outperforms much larger open- and closed-source models. Our findings show that lightweight VLMs with verifiable reasoning achieve robust cross-style generalization while providing inspectable reasoning traces for multimodal tasks. The code and implementation are available at https://github.com/scheshmi/CrossStyle-MMR.
- Abstract(参考訳): 視覚言語モデル (VLM) は、視覚数学や科学質問応答のようなリテラルマルチモーダルタスクにおいて強力な推論能力を示している。
しかし、サルカズム、ユーモア、比喩などの比喩的言語は、表現された意味と意図された意味の間の微妙な矛盾を通して意図と感情を伝えるため、重要な課題である。
マルチモーダル設定では、付随する画像はテキストの意味を増幅または逆転させ、モダリティをまたいだモデルを要求し、主観性を説明できる。
効率的なマルチモーダル推論モデルを構築するための3段階のフレームワークを提案する。
(i)多モーダル・フィギュア言語を解釈する
(二)透明な推論の痕跡を提供し、
(三)複数の形態にまたがって一般化する。
4つのスタイルにわたる実験により,(1)推論トレースを組み込むことで,マルチモーダルな図形理解が大幅に向上し,(2)あるスタイルで学習した推論が,特にサルカズムやユーモアといった関連するスタイル間で他へ伝達され,(3)より大きなオープンおよびクローズドソースモデルを上回る一般化された推論VLMが得られることが示された。
本研究は,多モードタスクに対する検査可能な推論トレースを提供しながら,検証可能な推論付き軽量VLMが堅牢なクロススタイルの一般化を実現することを示す。
コードと実装はhttps://github.com/scheshmi/CrossStyle-MMRで公開されている。
関連論文リスト
- ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning [76.95203056566191]
マルチモーダル推論は言語と視覚の反復的調整を必要とするが、何が意味あるインターリーブド思考の連鎖を構成するかは定かではない。
我々はThinkMorphを開発した。ThinkMorphは、視覚的エンゲージメントの異なるタスクにまたがる、約24Kの高品質なインターリーブ付き推論トレースに基づいて微調整された統一モデルだ。
ThinkMorphは、一貫性のある言語論理を維持しながら、視覚的コンテンツを具体的に操作する、プログレッシブなテキストイメージ推論ステップを生成することを学ぶ。
論文 参考訳(メタデータ) (2025-10-30T17:51:38Z) - Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models [1.9950682531209158]
本稿では,連続思考のマルチモーダル連鎖(MCOUT)を提案する。
MCOUTはマルチモーダル推論を継続的に改善し,高いベースラインに対して最大8.23%の精度向上が得られることを示す。
以上の結果から,言語関連CoTを超えてLMMを推し進めるための有望な方向として,潜時的連続推論が注目されている。
論文 参考訳(メタデータ) (2025-08-18T02:50:20Z) - MUCAR: Benchmarking Multilingual Cross-Modal Ambiguity Resolution for Multimodal Large Language Models [19.241274582769037]
MLLM(Multimodal Large Language Models)は多くの視覚言語タスクにおいて大きな進歩を見せている。
マルチランガルおよびクロスモーダルシナリオ間のマルチモーダル曖昧性解決を明示的に評価するために設計された新しいベンチマークであるMUCARを紹介する。
論文 参考訳(メタデータ) (2025-06-20T14:57:41Z) - CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models [60.08485416687596]
Chain of Multi-modal Thought (CoMT)ベンチマークは、視覚操作を本質的に統合する人間のような推論を模倣することを目的としている。
我々は様々なLVLMと戦略をCoMT上で評価し、現在のアプローチの能力と限界に関する重要な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-12-17T14:10:16Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。